Почему у меня разные счетчики документов в статусе и индекс?

Вопрос задан: 1 год назад Последняя активность: 1 год назад
up 0 down

Так что я после учебник Storm-Crawler-ElasticSearch и играть с ним.

Когда Kibana используется для поиска Я заметил, что количество обращений за имя индекса «статус» намного больше, чем «индекс».

Пример:

Почему у меня разные счетчики документов в статусе и индекс?

В левом верхнем углу, вы можете увидеть, что есть 846 хитов для индекса «статус» Я предполагаю, что это означает, что он пролез 846 страниц.

Почему у меня разные счетчики документов в статусе и индекс?

Теперь с индексом «индекс», показано, что существует только 31 хитов.

Я понимаю, что индекс functionallyn и статус различны, как статус только отвечает за данные меты ссылки. Проблема заключается в том, что он, кажется, что StormCrawler является разбор через много страниц и их не индексирует.

Так что я хотел бы иметь такое же количество просмотров «индекс» тоже с содержанием отображается. Вместо того, чтобы только 31.

2 ответа

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 2 down accepted

Индекс «статуса» содержит информацию обо всех URL-адресов на гусеничном ходу либо надуманный или обнаружено. Это примерно эквивалент crawldb в индексе Nutch.The «» индекса содержит страницы, которые были извлечены, разобранные и, ну, индексированные.

Теперь, если вы посмотрите на поле «статус» в индексе состояния, вы обнаружите, что существуют различные значения, указывающие, был ли Обнаружен URL, неправдоподобным и т.д.... Посмотреть ЭНЦИКЛОПЕДИЯ о потоке состояния. Те, отмеченные как ОТКРЫЛ еще не были неправдоподобными и, следовательно, не могут быть в индексе «индекс». При фильтрации содержимого индекса состояния по статусу: извлечённые вы должны увидеть номер, сравнимый с целевым показателем.

Модуль Elasticsearch в СК содержит шаблоны для kibana, которые позволяют увидеть разбивку URL-адресов на статус. Если вы еще не сделали этого, я рекомендую вам посмотреть на видео уроки по Youtube.

Так что я хотел бы иметь такое же количество просмотров «индекс» тоже с содержанием отображается. Вместо того, чтобы только 31.

Это в конечном итоге попасть туда, вам просто нужно дать время на гусеничном делать свою работу (и делать это вежливо). Имейте в виду, что гусеничный обнаруживает URL-адреса быстрее, чем он выбирает их. Перед тем, как спросить о скорости, пожалуйста, прочитайте Вопросы-Ответы.

up 0 down

Перенаправления и Fetch Ошибки другая возможная причина разницы. Они существуют в индексе состояния, но не в индексе контента.