Ресурсы для сканирования 1M в час

Вопрос задан: 2 года назад Последняя активность: 2 года назад
up 0 down

Я ищу информацию о том, сколько ресурсов (главным образом, ЦП и ОЗУ) я должен выделить своему сканеру, чтобы иметь возможность плавно сканировать ~ 1 млн страниц в час. Я запускаю все на одном узле и использую ES для постоянства. Я делаю рекурсивный обход в пределах 1 млн доменов. Спасибо!

1 ответ

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 0 down accepted

В общем Часто задаваемые вопросы, скорость зависит в большой степени от разнообразия имен хостов и настроек вежливости. В вашем случае нет недостатка в именах хостов, так что это не предел.

С ES в качестве бэкэнда узкими местами, как правило, являются времена запроса в носиках, а также слияние сегментов. По мере того, как размер вашего сканирования увеличивается, это занимает все больше и больше времени. Существуют различные способы оптимизации вещей, например, используйте выборку с AggregationSpouts. Предоставление нагрузки ОЗУ на ES поможет, как и использование SSD. Вы можете настроить различные параметры, но, честно говоря, 1M в час на одном сервере звучит очень амбициозно с ES в качестве бэкэнда. Чем быстрее вы сканируете, тем больше URL открываете, тем больше становится ваш индекс.

Планируете ли вы вообще пересматривать URL-адреса или это одноразовое сканирование?

Не могли бы вы связаться с нами по электронной почте? Я хотел бы обсудить это, поскольку это относится к некоторой работе, которую я делаю в данный момент (и мне всегда любопытно, что люди делают с SC). Благодарю.