Что такое хороший инструмент для веб-сканирования

Вопрос задан: 11 лет назад Последняя активность: 7 лет назад
up 16 down

Мне нужно проиндексировать множество веб-страниц, какие есть хорошие утилиты для поиска веб-страниц? Я предпочитаю после чего-то, с чем .NET может поговорить, но это не демонстратор.

Что мне действительно нужно, так это то, что я могу дать URL сайта & он будет переходить по каждой ссылке и сохранять контент для индексации.

6 ответов

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 12 down accepted

HTTrack - http://www.httrack.com/ - это очень хороший копир сайта. Работает довольно хорошо. Давно им пользуюсь.

Nutch - это веб-сканер (сканер - это тип программы, который вы ищете) - http://lucene.apache.org/nutch/ - который использует первоклассную поисковую утилиту lucene.

up 4 down

Crawler4j это сканер Java с открытым исходным кодом, который предоставляет простой интерфейс для сканирования в Интернете. Вы можете настроить многопоточный веб-сканер за 5 минут.

Вы можете установить свой собственный фильтр для посещения страниц или нет (URL) и определить некоторые операции для каждой просматриваемой страницы в соответствии с вашей логикой.

Несколько причин выбрать crawler4j;

  1. Многопоточная структура,
  2. Вы можете установить глубину сканирования,
  3. Это на основе Java и с открытым исходным кодом,
  4. Контроль за избыточными ссылками (URL),
  5. Вы можете установить количество страниц для сканирования,
  6. Вы можете установить размер страницы для сканирования,
  7. Достаточно документации
up 2 down

Searcharoo.NET содержит паука, который сканирует и индексирует контент, и поисковой системы для его использования. Вы сможете найти способ обойти код Searcharoo.Indexer.EXE, чтобы перехватить содержимое при его загрузке и добавить свой собственный код оттуда...

Это очень простой (весь исходный код включен, и объясняется в шести статьях CodeProject, последняя из которых здесь Searcharoo v6): паук следует за ссылками, изображениями, изображениями, подчиняется директивам ROBOTS, анализирует некоторые типы файлов, отличные от HTML. Он предназначен для отдельных сайтов (а не для всего сайта).

Nutch/Lucene почти наверняка является более надежным/коммерческим решением, но я не смотрел на их код. Не уверен, что вы хотите достичь, но вы также видели Microsoft Search Server Express?

Отказ от ответственности: я автор Searcharoo; просто предлагая это здесь как вариант.

up 1 down

я использую Программное обеспечение Mozenda Web Scraping. Вы можете легко просканировать все ссылки и получить всю необходимую информацию, и это здорово софт за деньги.

up 1 down

Sphider довольно хорошо Это PHP, но это может помочь.

up 0 down

Я еще не использовал это, но этот выглядит интересно. Автор написал это с нуля и выложил как сделал. Код для него также доступен для скачивания.