настройки StormCrawler

Вопрос задан: 1 год назад Последняя активность: 1 год назад
up 0 down

У меня есть несколько вопросов о StormCrawler: http://stormcrawler.net/

1. Запретить искатель Магазины:

Я пытался использовать это регулярное выражение по умолчанию, в-регулярное выражение-filters.txt в: - (магазин). Это правильный способ сделать это? Поскольку stormcrawler все еще ползает сайты, которые имеют «магазин» где-то в их URL ..

2. Что делать «maxDepth» Параметр?

Мне нужна возможность ограничить ползет углубленные за веб-сайт, например, просто сканировать страницы, которые являются «один щелчок/уровень» от домашнего сайта /. Является ли это правильный параметр для этого случая использования? Если нет, где не является вариантом?

3. Elasticsearch: Обнаружены и неправдоподобный

Я бы понял, что обнаружил всегда должно быть больше, чем за уши. Но я получил случаи, когда неправдоподобным> найденные. Есть ли объяснение для него или что же обнаружил, а что сгружен означает?

4. Конфигурация входа: parse.emitOutlinks

Я действительно не понимаю смысл этого. Есть простое объяснение для этого? Потому что, когда я поставил его к ложному, искатель сделал только ползать первую страницу с URL, и я не знаю почему.

5. Различие между «fetcherthreads» и «нитями на очередь»?

В настоящее время мы используем 200 fetcherthreads и 20 нитей на очередь. Как эти два в пропорции?

Извините за такое количество вопросов, но я действительно ценю вашу помощь. Заранее спасибо!

С Уважением,

Jojo

1 ответ

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 1 down accepted

1. Запретить искатель Магазины

-. * (Магазин) должен работать. Выражение, которое вы пытались не допускает никаких символов до магазина

2. Что делать «maxDepth» Параметр?

да, это именно то, что он делает. Он отслеживает глубину от семенной URL-адресов и фильтров ничего, кроме порога вы установили

3. Elasticsearch: Обнаружены и неправдоподобный

Видеть Почему у меня разные счетчики документов в статусе и индекс?

Почему бы не взглянуть на учебники и WIKI?

4. Конфигурация входа: parse.emitOutlinks

Как следует из названия, этот параметр предотвращает парсер болт, чтобы добавить внешние ссылки на поток состояния. Это полезно, когда вы не хотите, чтобы расширить ползать и принести только семена.

5. Различие между «fetcherthreads» и «нитями на очередь»?

Fetcher нить проста число нитей, используемых в FetcherBolt для извлечения URL. FetcherBolt помещает входящие во внутренние URL-адрес очередей на основе их имя хоста (или домена или IP) и Fetcher нитей опроса из этих очередей. По умолчанию, StormCrawler допускает только один Fetcher потока на внутреннюю очередь, так что ползти вежлив и не отправляют запросы на целевых хостов слишком часто.

Если вы еще не сделали этого, я рекомендую вам посмотреть на видео уроки по YouTube.