Вопросы с тегом 'stormcrawler'

Количество результатов: 32

2 голоса
2 ответа
Тика Parser замедляя StormCrawler

У меня есть довольно общая задача, имея несколько тысяч веб-сайтов, и того, чтобы разобрать, как много, насколько это возможно (в адекватной форме, конечно). Во-первы...

0 голосов
1 ответ
Текст Extraction поведение сбивает с толку

Работа на штормовой гусеничном 1.13. Я использую ниже конфигурацию для извлечения текста. Немного путать с тем, как, как он будет работы. - MAIN[role="main"] -...

0 голосов
1 ответ
Извлечение текста не применяя

Работа на штормовой гусеничном 1,13 и упругая поиска 6.5.2. В извлечения текста я подаю MAIN тег, который сохраняет основное содержание моего веб-страницы. К сожалению...

0 голосов
1 ответ
Отдельные слова в запятой и точкой с запятой

Я индексировать сайт с ключевыми словами метатег, которые разделены на запятой, а также точке с запятой, я вижу установки CommaSeparatedToMultivaluedMetadata Штурмовой...

0 голосов
1 ответ
Гусеничный не ползут всего несколько страниц, ползет все остальное

У меня есть установка на гусеничном ходу в мое приложение и он прекрасно работает, но есть проблема с только пару адресов. Он не сканировал эти страницы, единственное ...

0 голосов
2 ответа
StormCrawler бросает останавливая из-Out Of Memory Error

Работа на штормовой гусеничном 1,13 и упругая поиска 6.5.2. Ниже моя конфигурация искателя. Я ползать сайт, который имеет миллионы Docs. Гусеничный не дает мне какое-л...

0 голосов
1 ответ
Проблема с непечатаемыми

Работа по штормовым 1.13 и Elastic Search 6.5.2. Гусеничный работают нормально и у меня есть проблема с пробельным/п и/т. Когда я проверяю индекс Есть много/п и/т. Как...

0 голосов
1 ответ
Автоматическое удаление извлеченных записей при возникновении ошибки Fetch_Error

Работая над Storm Crawler 1.13, он успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем пов...

0 голосов
1 ответ
Удалить заголовки из сканирования

Работа над Storm Crawler 1.13 и Elastic Search 6.5.2. Работаем в TextExtractor. Я исключаю теги script и style аналогично, хочу удалить теги header. Я применяю приведе...

0 голосов
1 ответ
Явные специальные символы от сканирования

Работа над Storm Crawler 1.13 и упругий поиск 6.5.2. Как ограничить сканер, чтобы не сканировать/индексировать специальные символы � � � � � ��� �� � •

0 голосов
1 ответ
Будет ли Crawler переиндексировать записи после удаления

Работа над Storm Crawler 1.12.1 и Elastic Search 6.5.2. Мне нужно увеличить эффективность моей поисковой системы. Я удалил некоторые документы по соображениям безопасн...

0 голосов
1 ответ
Отключить проверку SSL-сертификата

Работа над Storm Crawler 1.12.1 и Elastic search 6.5.x. Мой сканер работает на http://localhost:8080 и эластичный поиск работает на https://localhost:9200.Я пытаюсь ск...

0 голосов
1 ответ
настройки StormCrawler

У меня есть несколько вопросов о StormCrawler: http://stormcrawler.net/ 1. Запретить искатель Магазины: Я пытался использовать это регулярное выражение по умолчанию...

0 голосов
1 ответ
Дедупликации с StormCrawler

Я вижу, что документ дедупликации пока не поддерживается в Stormcrawler. Это то, что в трубопроводе для будущего? Я спрашиваю это, потому что я вижу, что метаданные по...

0 голосов
1 ответ
Отключить подобласть в stormcrawler потока

Как мы можем отключить инъекционный поддомен в потоковом? Теперь, если мы вводим www.ebay.com в потоке, чем в из нас есть субдомна страница: my.ebay.com, community.eba...

0 голосов
1 ответ
Имеет ли JSoupParserBolt имеет встроенную реализацию, чтобы использовать parsefilters.json файл и классы, связанные с ним?

Я смотрел на извлечение данных конкретного XPath с использованием классов фильтров, предоставляемых в пределах штормового гусеничном. Мне было интересно, использует ли...

1 голос
1 ответ
Исключение X509 Certificate при сканировании некоторых URLs с StormCrawler

Я использую StormCrawler для сканирования веб-сайтов. Как протокол HTTPS, я установил по умолчанию HTTPS протокола в StormCrawler. Однако, когда я ползти некоторые веб...

0 голосов
1 ответ
Пользовательский файл parsefilter.json не найден при запуске StormCrawler из Затмения

Я хотел бы сообщить, что я исследовал StormCrawler SDK для извлечения ответа HTML. Я знаю, что JSoupParserBolt использует файл parsefilter.json для извлечения ответа в...

0 голосов
0 ответов
Ошибка при сканировании после произвольного количества времени

Таким образом, у меня есть два класса, ответственных за высев (потребители инъекционных Urls) и ползать. ESSeedInjector Класс: public class ESSeedInjector extends Co...

0 голосов
1 ответ
Как изменить ESCrawlTopology так он работает на местном вместо удаленного? исключение «NoNodeAvailableException»

Я по существу хочу повторить эту команду: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux es-crawler.flux --local --sleep 30000 но сделат...

0 голосов
2 ответа
Почему у меня разные счетчики документов в статусе и индекс?

Так что я после учебник Storm-Crawler-ElasticSearch и играть с ним. Когда Kibana используется для поиска Я заметил, что количество обращений за имя индекса «статус» н...

2 голоса
1 ответ
Не удалось найти лидера нимб из семян хозяев Storme V1.2.1 в CentOS

Я попытался установленным шторм в CentOS машине. при запуске штормового кластера я получаю следующее сообщение об ошибке org.apache.storm.utils.NimbusLeaderNotFoundEx...

0 голосов
2 ответа
StormCrawler не может подключиться к ElasticSearch

При выполнении команды: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 Я получаю сообщение об ...

0 голосов
1 ответ
STORM CRAWLER: Сформировать печенье из отдельной линии через обычную проверку подлинности и использовать куки для обхода ссылки в seeds.txt

Сайт, который я хочу, чтобы ползать включен с аутентификацией через базовую аутентификацию третьей стороны. Например, URL-адрес, который должен сканироваться является ...

0 голосов
1 ответ
StormCrawler: Тайм-аут ожидания соединения с бассейном

Мы постоянно получаем следующее сообщение об ошибке, когда мы увеличиваем либо число потоков или количество исполнителей для болта Fetcher. org.apache.http.conn.Conne...

2 голоса
1 ответ
StormCrawler Maven ошибка упаковки

Я пытаюсь настроить и запустить Бурю Crawler и последующий http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html сообщение блога. Н...

0 голосов
1 ответ
Невозможно подключиться к StormCrawler обеспеченных Elasticsearch

Я получаю ошибку ниже noNodeAvailableException [Ни один из настроенных узлов отсутствуют: [{# транспорт # -1} {buKSP622TFWnQm_2-PxqQg} {XXXXXXXX} {10.240.49.79:230...

1 голос
1 ответ
Как сохранить содержимое сайта в Индексе состояния с помощью StormCrawler?

Мы пытаемся сохранить содержимое веб-страницы в индексе состояния вместе с URL-адресом, информацией о состоянии и метаданными. Мы пытались редактировать ES_IndexInit....

0 голосов
1 ответ
Ресурсы для сканирования 1M в час

Я ищу информацию о том, сколько ресурсов (главным образом, ЦП и ОЗУ) я должен выделить своему сканеру, чтобы иметь возможность плавно сканировать ~ 1 млн страниц в час...

2 голоса
1 ответ
Штормовой Crawler- Ползучая сайты, которые требуют проверки подлинности

Я хотел бы ползания сайтов, которые требуют авторизации (у меня уже есть учетные данные) в интрасети с штормовым Crawler. Можно ли сделать это путем простого изменения...

0 голосов
1 ответ
Шторм Конфигурация Гусеничный с Тика для рекурсивных обходов

Я хочу, чтобы включить Тик парсера моей топологии. Я установил jsoup.treat.non.html.as.error как false в конфигурации, и я настроил топологию Тика, как описано в докум...

0 голосов
1 ответ
Параллельная обработка нового домена/URL-адреса, вставленного в StormCrawler с использованием ElasticSearch

Я использую StormCrawler для сканирования в реальном времени. Я вставляю домен в ElasticSearch и Crawler ползет нормально, я определил предел сканирования URls для каж...