Вопросы с тегом 'web-crawler'

Количество результатов: 259

0 голосов
0 ответов
Как прочитать .json-контейнер, активированный при прокрутке с сайта?

У меня есть страница https://brilliant.org/community/home/problems/popular/all/all/. Это список всех проблем с сайта brilliant.org, и я хочу прочитать ссылку на каждую...

-1 голос
1 ответ
Фан-страница Facebook не может быть просканирована

Я хочу сканировать комментарии фан-страницы на Facebook, используя python. Я иду в Graph API Explorer, чтобы получить токен пользователя. После того как я отправил зап...

0 голосов
0 ответов
Подтвердите посещения Nutch 2.x на веб-сайте в фиксированные дни с включенными выходными ссылками

Мы создали Nutch 2.3.1 с Hadoop 2.x а также HBase 0.98. Это кластер небольшого размера. В начальных доменах содержится около 5000 доменов, и включены внешние ссылки, т...

0 голосов
0 ответов
Как получить адрес BTC с веб-страниц с помощью регулярных выражений?

Я пытался реализовать инструмент для извлечения адреса BTC с веб-страниц с использованием Python. Я пробовал несколько методов регулярных выражений, но, к сожалению, о...

0 голосов
2 ответа
Репликация поиска в JavaScript в scrapy

У меня нет успеха в очистке этого сайта, потому что он не содержит никаких форм. Мой сканер всегда ничего не возвращает, когда я отправляю данные ответа в файл: i...

0 голосов
0 ответов
Как запланировать сценарий поиска Web R, который хранит данные в SQL для еженедельного запуска?

Я хочу автоматизировать мой R-скрипт, который по сути является веб-сканером, для еженедельного запуска, даже когда система заблокирована. Сканер загружает данные в баз...

-5 голосов
1 ответ
webcrawler только зацикливается на starturl

я знаю, что есть некоторая ключевая концепция в затуманивании, может ли кто-нибудь исправить код или указать мне правильное направление. плохо Google и попробовать нек...

0 голосов
1 ответ
Scrapy прекращается рано, ошибок нет

поэтому я пытаюсь очистить блог примерно с 2000 страницами постов, но кажется, что скраппинг заканчивается рано и не доходит до последней страницы. import scrapy c...

0 голосов
1 ответ
Явные специальные символы от сканирования

Работа над Storm Crawler 1.13 и упругий поиск 6.5.2. Как ограничить сканер, чтобы не сканировать/индексировать специальные символы � � � � � ��� �� � •

0 голосов
1 ответ
PyQuery HTML, как выбрать (второй тег, nth-child)

a=''' <p id="A" class="hello beauty"></p> <v id="XXX" c=1234> <p id="B" class="beauty"></p> <v id="YYY" c=5678> <p id="C" class=...

0 голосов
1 ответ
Будет ли Crawler переиндексировать записи после удаления

Работа над Storm Crawler 1.12.1 и Elastic Search 6.5.2. Мне нужно увеличить эффективность моей поисковой системы. Я удалил некоторые документы по соображениям безопасн...

0 голосов
1 ответ
Получить текст между < span > тег, который находится внутри другого тега < span > тег

Мой текущий код для получения необходимого контента выглядит следующим образом: #BeautifulSoup textContent = [] headline = soup.find('a', attrs={"class":"title"}).tex...

-2 голоса
2 ответа
почему мой xpath всегда не получает ничего подобного " [] & quot ;?

Я новичок в сканировании веб-страницы. мой код пытается получить время на сайте. Я нашел местоположение и пытался использовать xpath для получения текста(). Но мой код...

0 голосов
1 ответ
Создается много CSV-файлов (рабочих книг). Я хочу, чтобы они были в виде одного CSV-файла (под одной рабочей книгой на одном листе). (При веб-сканировании)

В моем коде генерируется много CSV-файлов. Я хочу их как один CSV-файл. Пять партий всех лет должны быть выполнены в одном файле CSV. По сути, я пытаюсь сканировать ве...

1 голос
0 ответов
Как получить контент ARC Welder

я использую ARC Welder запустить apk на му убунту. В установленной мной программе android много комментариев (более 10000). Я хочу получить все эти комментарии из прил...

1 голос
1 ответ
scrapy 503 Сервис недоступен в стартаре

Я изменил этот паук, но он дает это ошибки Gave up retrying &lt;GET https://lib.maplelegends.com/robots.txt&gt; (failed 3 times): 503 Service Unavailable 2019-01-06 ...

0 голосов
1 ответ
Как извлечь твиты, размещенные только у местных жителей?

Я делаю проект анализа настроений об отношении местного населения к транспортному сервису в Гонконге. Я использовал API Twitter для сбора твитов. Однако, поскольку мое...

0 голосов
0 ответов
Как исправить 'undefined: 1 Traceback (последний вызов был последним):' когда node.js подключился к python во время веб-сканера?

Я использую node.js, связанный с python-оболочкой Однако, в первый раз это сработало, а затем не удалось «Не определено: 1 трассировка (последний вызов последним)...» ...

1 голос
1 ответ
Docker Selenium Chromedriver: К сожалению, в автоматическом доступе к этой странице было отказано

Я использую Селен Хромедрайвер в моем проекте Python. Приложение работает под Docker. Когда я пытаюсь получить доступ http://mobile.de веб-сайт, который я получил о...

0 голосов
0 ответов
Web Crawler работает с зарегистрированным сеансом в браузере

Я хочу скачать некоторую информацию с сайта бухгалтерского учета, где мне нужно войти в систему. Я думаю, что было бы лучше, если бы я мог запустить его в контексте су...

5 голосов
1 ответ
Капча использует запросы даже после смены заголовков и IP. Как меня отслеживают?

Я пытаюсь почистить некоторые статьи с seekalpha.com. Однако после определенного количества царапин появляется капча. (Т.е. https://seekingalpha.com/article/4230872-di...

0 голосов
1 ответ
Отключить проверку SSL-сертификата

Работа над Storm Crawler 1.12.1 и Elastic search 6.5.x. Мой сканер работает на http://localhost:8080 и эластичный поиск работает на https://localhost:9200.Я пытаюсь ск...

0 голосов
0 ответов
Очистка данных из таблицы с уникальными идентификаторами строк

Я пытаюсь соскрести с этот веб-сайт. Моя цель - собрать последние 10 результатов (победа/поражение/ничья) ЛЮБОЙ команды, я просто использую эту конкретную команду в ка...

0 голосов
1 ответ
Golang Web Spider с пагинацией обработки

Я работаю над поисковым роботом golang, который должен анализировать результаты поиска в какой-то конкретной поисковой системе. Основная сложность - разбор с параллели...

0 голосов
0 ответов
веб-сканер, чтобы получить все отзывы Google отзывов на карте Google место

Есть 2 способа сделать сканер веб-страниц во всех обзорах/комментариях Google для определенного местоположения. Используя API Google Maps, он может возвращать отзывы...

1 голос
0 ответов
scrapy всегда Запуск нового HTTP-соединения после сканирования

После того, как мой паук просканировал все URL-адреса, копирование не прекратилось, как остановить его после завершения сканирования? Начальный URL http://http://192....

1 голос
2 ответа
Сбой дедупликации

Я интегрировал nutch 1.14 вместе с solr-6.6.0 в выпуске CentOS Linux 7.3.1611 я дал около 10 URL-адресов в seedlist, который находится по адресу /usr/local/apache-nutc...

0 голосов
1 ответ
Jsoup - получить URL от элемента

У меня есть ссылка на элемент. (Ссылка &lt;li class="books"&gt;&lt;a href="catagory.php?cat=books"&gt;Books&lt;/a&gt;&lt;/li&gt;) Я пытаюсь разобрать Hred от этого эл...

0 голосов
2 ответа
Selenium нажмите на ссылку следующей страницы, не загружая следующую страницу

Я новичок в селене и веб-скрепинге и пытаюсь получить информацию по ссылке: https://www.carmudi.com.ph/cars/civic/distance:50km/?sort=suggested Вот фрагмент кода, кот...

0 голосов
0 ответов
Сканер скриптов сайта

Кто-нибудь из вас знает, как мне создать сканер, который на каждой странице ищет определенный скрипт? У вас есть какие-нибудь предложения... Я смотрю, может ли он опре...

6 голосов
1 ответ
Scrapy: загрузчик/response_count против response_received_count

я использую scrapy сканировать несколько сайтов, и я хочу проанализировать скорость сканирования. Статистика в конце содержит downloader/response_count значение и resp...

0 голосов
1 ответ
Цикл веб-сканирования

Я написал следующий цикл в моем веб-сканере. Это заканчивается через несколько секунд. Я не могу понять, почему. def crawlweb(seed): crawled = [] tocrawl = [...

1 голос
1 ответ
Сайт Scrapy перенаправляет на 404 после загрузки

Я пытаюсь сканировать сайт моды, однако, когда я пытаюсь отобразить страницу, которую я хочу сканировать, из оболочки scrapy, я увижу, что она сначала загружает страни...

0 голосов
1 ответ
Заголовок HTTP-запроса - Что такое «Доступный словарь»?

Я делаю несколько HTTP-запросов в .Net, и после проверки HTTP-запроса, отправленного на веб-сайт, я нашел заголовок запроса, с которым я незнаком. После добавления э...

1 голос
0 ответов
Таймер чтения веб-сайтов Python/Selenium в реальном времени

Как я могу прочитать таймер сайта, используя селен в режиме реального времени, например, для следующего сайта http://www.timer-tab.com/ Мне нужно прочитать время и в...

0 голосов
1 ответ
Сканирующий сканер не сканирует или не может записать в CSV-файл?

Проект: https://github.com/smalik/resume_scraper Я запускаю этого бота с помощью команды: sudo scrapy crawl indeed_resume -o items.csv Проблема в том, что он либо ...

0 голосов
2 ответа
Код Python не может найти элемент HTML

При сканировании этой страницы (http://bobaedream.co.kr/cyber/CyberCar_view.php?no=652455&amp;gubun=I), мой код возвращает сообщение об ошибке, которое я не могу понят...

0 голосов
1 ответ
Как включить скоринг страниц в Nutch 2.x на основе ссылок и исходящих ссылок?

У Nutch 1.x была эта способность, однако я не могу найти ее в Nutch 2.x. Есть ли какой-нибудь вариант в Nutch, который может включить его, или я должен сделать это на ...

1 голос
0 ответов
Многопоточность в поисковой системе Python, вызывающая зависание

Я пытаюсь научить себя программированию, и я наткнулся на стену с многопоточностью, я использую ее, чтобы ускорить мой сканер Google, кто-то может указать мне правильн...

1 голос
1 ответ
Невозможно войти с помощью Selenium

Я использую стек Selenium + Python 2.7.Я хочу войти в этот форум и сканировать почтовые данные для научных исследований. Я использую следующий код для заполнения формы...

1 2 3 4 5 6 7 right