Рекомендации по использованию инструмента для пауков с Lucene или Solr?

Вопрос задан: 11 лет назад Последняя активность: 6 лет назад
up 16 down

Что такое хороший сканер (паук) для использования с документами HTML и XML (локальными или сетевыми) и который хорошо работает в пространстве решений Lucene/Solr? Может быть на основе Java, но не обязательно.

7 ответов

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 11 down accepted

На мой взгляд, это довольно значительная дыра, которая сдерживает широкое распространение Solr. Новый DataImportHandler - хороший первый шаг для импорта структурированных данных, но для Solr нет хорошего конвейера приема документов. Nutch работает, но интеграция между Nutch Crawler и Solr несколько неуклюжа.
Я пробовал каждый найденный сканер с открытым исходным кодом, и ни один из них не интегрировался с Solr.
Следите за OpenPipeline и Apache Tika.

up 6 down

Я попробовал Nutch, но было очень трудно интегрироваться с Solr. Я бы посмотрел на Heritrix. Он имеет обширную систему плагинов, облегчающую интеграцию с Solr, и намного быстрее при сканировании. Он широко использует потоки для ускорения процесса.

up 4 down

Я предлагаю вам проверить Nutch чтобы получить вдохновение:

Nutch - это программное обеспечение для веб-поиска с открытым исходным кодом. Он основан на Lucene Java, добавляя веб-особенности, такие как сканер, база данных графа ссылок, парсеры для HTML и других форматов документов и т.д.

up 4 down

Также проверьте Apache Droids [http://incubator.apache.org/droids/] - это не простой фреймворк для пауков, гусеничных и рабочих.

Он новый и еще не прост в использовании с полки (для его запуска потребуется некоторое время), но это хорошая вещь, за которой нужно следить.

up 2 down

http://arachnode.net

C#, но создает файлы индекса расходных материалов Lucene (Java и C#).

up 2 down

Натч может быть вашим ближайшим соперником, но он не слишком гибкий.

Если вам нужно что-то большее, вам придется взломать собственный сканер. Это не так плохо, как кажется, у каждого языка есть веб-библиотеки, так что вам просто нужно подключить некоторый менеджер очередей задач с загрузчиком HTTP и анализатором HTML, это не так уж много работы. Скорее всего, вы можете обойтись без единого блока, поскольку сканирование в основном требует пропускной способности, а не нагрузки на процессор.

up 0 down

Кто-нибудь пробовал Xapian? Это выглядит намного быстрее, чем Solr и написано на C++.