Вопросы с тегом 'stormcrawler'

Количество результатов: 42

0 голосов
1 ответ
как использовать болт питона в штормовом гусеничном?

У меня есть некоторые изображения классификаторов, которые были написаны на Python. Много примеров можно найти на вебе, которая описывает способ использования питона в...

0 голосов
1 ответ
Stormcrawler/Elasticsearch и отслеживание внешних ссылок на странице

Когда мы ищем результаты сканирования Stormcrawler в индексе Elasticsearch, люди неизбежно сравнивая результаты Google и искали результаты сравнения неблагоприятные дл...

0 голосов
1 ответ
Оптимальная настройка для Stormcrawler -> Elasticsearch, если вежливость ползать не является проблемой?

Наш университет веб-система имеет около 1200 сайтов, включающий в себя пару миллионов страниц. Мы установили и настроили на компьютере, на котором апачский работает ло...

0 голосов
1 ответ
TextExtraction не работает, когда ТИК конфигурация включена

Работая над SC 1.13. Я подаю Тику Config для сканирования MS Docs и Pdf. Текст Extraction работает хорошо без каких-либо ТИКА конфигурации и ее принятия Orginal контен...

0 голосов
1 ответ
Stormcrawler, индекс состояния и повторное сканирование

Таким образом, мы имеем stormcrawler работает успешно, с основной индекс в настоящее время имея немногим более 2 миллионов URL-адресов из наших различных веб-сайтов, и...

0 голосов
1 ответ
Разъяснение от того, как по умолчанию, регулярное выражение-filters.txt работ Stormcrawler в

С Stormcrawler, если добавить -^(http|https):\/\/example.com\/page\/?date чтобы по умолчанию-регулярное выражение-filters.txt, но я все еще вижу 2019-03-20 08:49:58.1...

2 голоса
2 ответа
Тика Parser замедляя StormCrawler

У меня есть довольно общая задача, имея несколько тысяч веб-сайтов, и того, чтобы разобрать, как много, насколько это возможно (в адекватной форме, конечно). Во-первы...

0 голосов
1 ответ
Текст Extraction поведение сбивает с толку

Работа на штормовой гусеничном 1.13. Я использую ниже конфигурацию для извлечения текста. Немного путать с тем, как, как он будет работы. - MAIN[role="main"] -...

0 голосов
1 ответ
Извлечение текста не применяя

Работа на штормовой гусеничном 1,13 и упругая поиска 6.5.2. В извлечения текста я подаю MAIN тег, который сохраняет основное содержание моего веб-страницы. К сожалению...

0 голосов
1 ответ
Отдельные слова в запятой и точкой с запятой

Я индексировать сайт с ключевыми словами метатег, которые разделены на запятой, а также точке с запятой, я вижу установки CommaSeparatedToMultivaluedMetadata Штурмовой...

0 голосов
1 ответ
Гусеничный не ползут всего несколько страниц, ползет все остальное

У меня есть установка на гусеничном ходу в мое приложение и он прекрасно работает, но есть проблема с только пару адресов. Он не сканировал эти страницы, единственное ...

0 голосов
2 ответа
StormCrawler бросает останавливая из-Out Of Memory Error

Работа на штормовой гусеничном 1,13 и упругая поиска 6.5.2. Ниже моя конфигурация искателя. Я ползать сайт, который имеет миллионы Docs. Гусеничный не дает мне какое-л...

0 голосов
1 ответ
Проблема с непечатаемыми

Работа по штормовым 1.13 и Elastic Search 6.5.2. Гусеничный работают нормально и у меня есть проблема с пробельным/п и/т. Когда я проверяю индекс Есть много/п и/т. Как...

0 голосов
1 ответ
Автоматическое удаление извлеченных записей при возникновении ошибки Fetch_Error

Работая над Storm Crawler 1.13, он успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем пов...

0 голосов
1 ответ
Удалить заголовки из сканирования

Работа над Storm Crawler 1.13 и Elastic Search 6.5.2. Работаем в TextExtractor. Я исключаю теги script и style аналогично, хочу удалить теги header. Я применяю приведе...

0 голосов
1 ответ
Явные специальные символы от сканирования

Работа над Storm Crawler 1.13 и упругий поиск 6.5.2. Как ограничить сканер, чтобы не сканировать/индексировать специальные символы � � � � � ��� �� � •

0 голосов
1 ответ
Будет ли Crawler переиндексировать записи после удаления

Работа над Storm Crawler 1.12.1 и Elastic Search 6.5.2. Мне нужно увеличить эффективность моей поисковой системы. Я удалил некоторые документы по соображениям безопасн...

0 голосов
1 ответ
Отключить проверку SSL-сертификата

Работа над Storm Crawler 1.12.1 и Elastic search 6.5.x. Мой сканер работает на http://localhost:8080 и эластичный поиск работает на https://localhost:9200.Я пытаюсь ск...

-1 голос
1 ответ
Commons Logging версия конфликта между StormCrawler и Hortonworks 1.1.0.2.6.4.0-91

Я следовал http://stormcrawler.net/getting-started/ руководство для создания файла фляги для topology.When я запустить топологию с помощью команды ливневых в readme фа...

0 голосов
1 ответ
Stormcrawler не выборки/индексации страниц для elasticsearch

Я использую Stormcrawler с Elasticsearch пример и никакие страницы не отображаются с FETCHED статус в Kibana при сканировании веб-страницы http://books.toscrape.com/ ...

2 голоса
1 ответ
топология архетип StormCrawler в вообще не получает внешних ссылок

Из моего понимания основной пример должен иметь возможность сканировать и получать страницы. Я последовал примеру на http://stormcrawler.net/getting-started/ но иска...

0 голосов
1 ответ
настройки StormCrawler

У меня есть несколько вопросов о StormCrawler: http://stormcrawler.net/ 1. Запретить искатель Магазины: Я пытался использовать это регулярное выражение по умолчанию...

0 голосов
1 ответ
Дедупликации с StormCrawler

Я вижу, что документ дедупликации пока не поддерживается в Stormcrawler. Это то, что в трубопроводе для будущего? Я спрашиваю это, потому что я вижу, что метаданные по...

0 голосов
1 ответ
Отключить подобласть в stormcrawler потока

Как мы можем отключить инъекционный поддомен в потоковом? Теперь, если мы вводим www.ebay.com в потоке, чем в из нас есть субдомна страница: my.ebay.com, community.eba...

0 голосов
1 ответ
Имеет ли JSoupParserBolt имеет встроенную реализацию, чтобы использовать parsefilters.json файл и классы, связанные с ним?

Я смотрел на извлечение данных конкретного XPath с использованием классов фильтров, предоставляемых в пределах штормового гусеничном. Мне было интересно, использует ли...

1 голос
1 ответ
Исключение X509 Certificate при сканировании некоторых URLs с StormCrawler

Я использую StormCrawler для сканирования веб-сайтов. Как протокол HTTPS, я установил по умолчанию HTTPS протокола в StormCrawler. Однако, когда я ползти некоторые веб...

0 голосов
1 ответ
Пользовательский файл parsefilter.json не найден при запуске StormCrawler из Затмения

Я хотел бы сообщить, что я исследовал StormCrawler SDK для извлечения ответа HTML. Я знаю, что JSoupParserBolt использует файл parsefilter.json для извлечения ответа в...

0 голосов
0 ответов
Ошибка при сканировании после произвольного количества времени

Таким образом, у меня есть два класса, ответственных за высев (потребители инъекционных Urls) и ползать. ESSeedInjector Класс: public class ESSeedInjector extends Co...

0 голосов
1 ответ
Как изменить ESCrawlTopology так он работает на местном вместо удаленного? исключение «NoNodeAvailableException»

Я по существу хочу повторить эту команду: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux es-crawler.flux --local --sleep 30000 но сделат...

0 голосов
2 ответа
Почему у меня разные счетчики документов в статусе и индекс?

Так что я после учебник Storm-Crawler-ElasticSearch и играть с ним. Когда Kibana используется для поиска Я заметил, что количество обращений за имя индекса «статус» н...

2 голоса
1 ответ
Не удалось найти лидера нимб из семян хозяев Storme V1.2.1 в CentOS

Я попытался установленным шторм в CentOS машине. при запуске штормового кластера я получаю следующее сообщение об ошибке org.apache.storm.utils.NimbusLeaderNotFoundEx...

0 голосов
2 ответа
StormCrawler не может подключиться к ElasticSearch

При выполнении команды: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 Я получаю сообщение об ...

0 голосов
1 ответ
STORM CRAWLER: Сформировать печенье из отдельной линии через обычную проверку подлинности и использовать куки для обхода ссылки в seeds.txt

Сайт, который я хочу, чтобы ползать включен с аутентификацией через базовую аутентификацию третьей стороны. Например, URL-адрес, который должен сканироваться является ...

0 голосов
1 ответ
StormCrawler: Тайм-аут ожидания соединения с бассейном

Мы постоянно получаем следующее сообщение об ошибке, когда мы увеличиваем либо число потоков или количество исполнителей для болта Fetcher. org.apache.http.conn.Conne...

2 голоса
1 ответ
StormCrawler Maven ошибка упаковки

Я пытаюсь настроить и запустить Бурю Crawler и последующий http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html сообщение блога. Н...

0 голосов
1 ответ
Невозможно подключиться к StormCrawler обеспеченных Elasticsearch

Я получаю ошибку ниже noNodeAvailableException [Ни один из настроенных узлов отсутствуют: [{# транспорт # -1} {buKSP622TFWnQm_2-PxqQg} {XXXXXXXX} {10.240.49.79:230...

1 голос
1 ответ
Как сохранить содержимое сайта в Индексе состояния с помощью StormCrawler?

Мы пытаемся сохранить содержимое веб-страницы в индексе состояния вместе с URL-адресом, информацией о состоянии и метаданными. Мы пытались редактировать ES_IndexInit....

0 голосов
1 ответ
Ресурсы для сканирования 1M в час

Я ищу информацию о том, сколько ресурсов (главным образом, ЦП и ОЗУ) я должен выделить своему сканеру, чтобы иметь возможность плавно сканировать ~ 1 млн страниц в час...

0 голосов
1 ответ
Скажите StormCrawler для удаления страниц из ES-индекса после того, как они были удалены на сервере

У меня есть следующий сценарий: Существующая страница получает сканироваться StormCrawler StormCrawler добавляет соответствующий документ к индексу Elasticsearch Стр...

2 голоса
1 ответ
Штормовой Crawler- Ползучая сайты, которые требуют проверки подлинности

Я хотел бы ползания сайтов, которые требуют авторизации (у меня уже есть учетные данные) в интрасети с штормовым Crawler. Можно ли сделать это путем простого изменения...

0 голосов
1 ответ
Шторм Конфигурация Гусеничный с Тика для рекурсивных обходов

Я хочу, чтобы включить Тик парсера моей топологии. Я установил jsoup.treat.non.html.as.error как false в конфигурации, и я настроил топологию Тика, как описано в докум...

0 голосов
1 ответ
Параллельная обработка нового домена/URL-адреса, вставленного в StormCrawler с использованием ElasticSearch

Я использую StormCrawler для сканирования в реальном времени. Я вставляю домен в ElasticSearch и Crawler ползет нормально, я определил предел сканирования URls для каж...