Извлечение текста не применяя

Вопрос задан: 11 месяцев назад Последняя активность: 11 месяцев назад
up 0 down

Работа на штормовой гусеничном 1,13 и упругая поиска 6.5.2. В извлечения текста я подаю MAIN тег, который сохраняет основное содержание моего веб-страницы. К сожалению, когда я добавляю только основные его захватывая содержание всей веб-страницы, которая включает в себя заголовки.

Не работал должным образом:

 textextractor.include.pattern:
  - MAIN[role="main"]

Но если добавить дополнительные теги под MAIN его захвата фактическое содержание того, что я ожидал.

Работал:

  textextractor.include.pattern:
   - MAIN[role="main"]
   - DIV[id="content--primary"]
   - DIV[id="content--secondary"]

Любое решение для этого, если я хочу, чтобы получить все содержимое между тегами MAIN. У меня есть много сайтов, в которых класс DIV и идентификатор изменяется и немного усложнять упомянуть каждую метку и одно общее на всех сайтах, на каждой странице MAIN теги держит фактическое содержание.

Заранее спасибо.

Обновлено: изменения файла в Repo

1 ответ

Возможно, для Вашего проекта будут необходимы бесплатные векторные карты. На нашем сайте представлены карты для всех стран.

Реклама

up 0 down

Файлы, размещенные недопустимые элементы:

<main rolle="main class>

а также

<main role="main class="mobile-menu-fixed">

Вы не можете ожидать, что шаблон, чтобы соответствовать, если имени атрибута опечатки и/или двойные кавычки отсутствуют.