Автоматическое удаление извлеченных записей при возникновении ошибки Fetch_Error

Вопрос задан: 1 год назад Последняя активность: 1 год назад
up 0 down

Работая над Storm Crawler 1.13, он успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем повторном посещении индекс состояния обновляется как FETCH_ERROR для отсутствующего URL-адреса, и когда я проверяю в основной индекс запись все еще там с этим URL. Как я могу удалить эту запись автоматически, когда появляется FETCH_ERROR.

1 ответ

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 1 down accepted

Состояние FETCH_ERROR преобразуется в ОШИБКУ после нескольких последовательных попыток (устанавливается fetch.error.count). Как только это произойдет, кортеж отправляется на поток удаления с помощью AbstractStatusUpdaterBolt и если у вас подключен DeletionBolt, то URL будет удален из индекса содержимого Elasticsearch. Это останется в индексе состояния, хотя и будет пересмотрено или не основано на расписании для ОШИБК.