Как вы архивируете весь сайт для просмотра в автономном режиме?

Вопрос задан: 11 лет назад Последняя активность: 1 год назад
up 53 down

На самом деле мы много раз сжигали статические/архивные копии наших сайтов asp.net для клиентов. Мы использовали WebZip до сих пор, но у нас были бесконечные проблемы со сбоями, неправильно загруженными страницами и т. д.

Нам в основном нужно приложение, которое сканирует и загружает статические копии всего на нашем сайте asp.net (страницы, изображения, документы, CSS и т.д.), А затем обрабатывает загруженные страницы, чтобы их можно было просматривать локально без подключения к Интернету (избавиться от абсолютных URL в ссылках и т. д.). Чем больше идиотских доказательств, тем лучше. Это кажется довольно распространенным и (относительно) простым процессом, но я попробовал несколько других приложений и был действительно не впечатлен

У кого-нибудь есть программное обеспечение для архивирования, которое они порекомендуют? У кого-нибудь есть действительно простой процесс, которым они поделятся?

9 ответов

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 65 down

Вы могли бы использовать wget:

wget -m -k -K -E http://url/of/web/site
up 38 down accepted

В Windows вы можете посмотреть на HTTrack. Это очень настраиваемый, позволяющий вам установить скорость загрузки. Но вы можете просто указать его на веб-сайте и запустить его без какой-либо настройки.

По моему опыту, это был действительно хороший инструмент и хорошо работает. Некоторые вещи, которые мне нравятся в HTTrack:

  • Лицензия с открытым исходным кодом
  • Резюме остановили загрузки
  • Можно обновить существующий архив
  • Вы можете настроить его, чтобы он был неагрессивным при загрузке, чтобы он не тратил вашу пропускную способность и пропускную способность сайта.
up 6 down

Wayback Machine Downloader от hartator это просто и быстро.

Установите через Ruby, затем запустите с нужным доменом и дополнительной отметкой времени из Интернет архив.

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
up 4 down

я использую Синий краб на OSX и WebCopier на винде.

up 2 down

wget -r -k

... и изучить остальные варианты. Я надеюсь, что вы следовали этим рекомендациям:http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html так что все ваши ресурсы в безопасности с GET-запросами.

up 1 down

Для пользователей OS X я нашел найденное приложение sitesucker вот работает хорошо, ничего не настраивая, но насколько глубоко это следует за ссылками.

up 1 down

Если ваши клиенты ведут архивирование на предмет соответствия, вы хотите убедиться, что контент может быть аутентифицирован. Перечисленные параметры подходят для простого просмотра, но они не являются юридически допустимыми. В этом случае вы ищете метки времени и цифровые подписи. Гораздо сложнее, если вы делаете это самостоятельно. Я бы предложил услугу, такую ​​как PageFreezer.

up 1 down

Я просто использую: wget -m <url>.

up 0 down

Я использую HTTrack уже несколько лет. Он прекрасно обрабатывает все межстраничные ссылки и т.д. Моя единственная жалоба заключается в том, что я не нашел хорошего способа ограничить доступ к этому сайту. Например, если есть сайт www.foo.com/steve, который я хочу заархивировать, он, вероятно, будет переходить по ссылкам на www.foo.com/rowe и архивировать его тоже. В противном случае это здорово. Сильно настраиваемый и надежный.

Ошибка 505

Что-то пошло не так

Попробуйте воспользоваться поиском