programing

오프라인보기를 위해 전체 웹 사이트를 어떻게 보관합니까?

firstcheck 2021. 1. 18. 08:09
반응형

오프라인보기를 위해 전체 웹 사이트를 어떻게 보관합니까?


실제로 고객을 위해 asp.net 웹 사이트의 정적 / 보관 된 사본을 여러 번 구 웠습니다. 우리는 지금까지 WebZip 을 사용해 왔지만 충돌, 다운로드 한 페이지가 올바르게 다시 연결되지 않는 등 끝없는 문제가있었습니다.

우리는 기본적으로 asp.net 웹 사이트 (페이지, 이미지, 문서, CSS 등)에있는 모든 것의 정적 사본을 크롤링하고 다운로드 한 다음 다운로드 한 페이지를 처리하여 인터넷 연결없이 로컬에서 탐색 할 수 있도록하는 애플리케이션이 필요합니다 (제거 링크의 절대 URL 등). 바보 증거가 많을수록 좋습니다. 이것은 매우 일반적이고 (상대적으로) 간단한 프로세스처럼 보이지만 몇 가지 다른 응용 프로그램을 시도해 보았지만 실제로는 인상적이지 않았습니다.

누구든지 그들이 권장하는 아카이브 소프트웨어가 있습니까? 공유 할 수있는 정말 간단한 프로세스가있는 사람이 있습니까?


Windows에서는 HTTrack을 볼 수 있습니다 . 다운로드 속도를 설정할 수 있도록 매우 구성 가능합니다. 그러나 웹 사이트를 가리키고 구성없이 실행할 수도 있습니다.

제 경험상 정말 좋은 도구 였고 잘 작동합니다. HTTrack에 대해 제가 좋아하는 몇 가지 사항은 다음과 같습니다.

  • 오픈 소스 라이선스
  • 중지 된 다운로드 재개
  • 기존 아카이브를 업데이트 할 수 있습니다.
  • 다운로드 할 때 공격적이지 않도록 구성하여 사이트의 대역폭과 대역폭을 낭비하지 않도록 할 수 있습니다.

wget을 사용할 수 있습니다 .

wget -m -k -K -E http://url/of/web/site

뒤로 머신 다운 에 의해 hartator은 간단하고 빠릅니다.

Ruby를 통해 설치 한 다음 Internet Archive 에서 원하는 도메인 및 선택적 타임 스탬프로 실행합니다 .

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

내가 사용 꽃게를 OSX와 WebCopier를 Windows에서.


wget -r -k

... 나머지 옵션을 조사합니다. http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html 지침을 따랐기를 바랍니다 . 따라서 모든 리소스가 GET 요청으로 안전하게 보호됩니다.


나는 단지 사용한다 : wget -m <url>.


고객이 규정 준수 문제를 위해 보관하는 경우 콘텐츠를 인증 할 수 있는지 확인하려고합니다. 나열된 옵션은 단순보기에는 좋지만 법적으로 허용되지는 않습니다. 이 경우 타임 스탬프와 디지털 서명을 찾고 있습니다. 스스로하는 경우 훨씬 더 복잡합니다. PageFreezer 와 같은 서비스를 제안합니다 .


OS X 사용자의 경우 여기 에서 찾은 sitesucker 응용 프로그램은 아무것도 구성하지 않고도 잘 작동하지만 링크를 따르는 정도입니다.


나는 지금 몇 년 동안 HTTrack을 사용하고 있습니다. 모든 페이지 간 링크 등을 잘 처리합니다. 내 유일한 불만은 하위 사이트로 제한하는 좋은 방법을 찾지 못했다는 것입니다. 예를 들어, 내가 보관하고 싶은 사이트 www.foo.com/steve가 있다면, 아마도 www.foo.com/rowe 링크를 따라 가고 그것도 보관할 것입니다. 그렇지 않으면 훌륭합니다. 고도로 구성 가능하고 신뢰할 수 있습니다.

참조 URL : https://stackoverflow.com/questions/538865/how-do-you-archive-an-entire-website-for-offline-viewing

반응형