Вопросы с тегом 'quanteda'

Количество результатов: 67

2 голоса
2 ответа
Подсчитать количество слов в файле словаря в R

Я читаю в словаре в R через quanteda пакет. Этот пакет поджат с некоторыми большими словарями, один из которых является Нравственные основы словарь, что я заинтересова...

1 голос
1 ответ
как кормить Тиббл к spacyr?

Рассмотрим простой пример bogustib <- tibble(doc_id = c(1,2,3), text = c('bug', 'one love', '838383838')) # A tibble: 3 x 2 doc_id text ...

2 голоса
1 ответ
Есть ли функция R для поиска ключевых слов в пределах определенного «слова расстояния»?

Что мне нужно, это функция, чтобы найти слова в пределах определенного «слова расстояния». Слова «мешок» и «инструмент» интересны в предложении «Он был мешок инструмен...

0 голосов
2 ответа
KWIC команда Выдает Error: объект «DOCNAME» не найдено

Я создал приборную панель с помощью R-блестящей. Пользователь будет ввести слово, оно переходит в руки команды KWIC и результаты отображаются в виде таблиц в главной п...

0 голосов
1 ответ
получения семантической сети, основанной на Quanteda особенность совместной встречаемости матрицы (FCM)

Я использовал код на этой странице datahttps: //tutorials.quanteda.io/basic-operations/fcm/fcm/ используя мои данные, однако, сюжет не имеют каких-либо связей между то...

1 голос
1 ответ
Как вывести в R всех возможных отклонений слова для фиксированного значения расстояния?

У меня есть слово и хочу вывести в R всех возможных deviatons (замена, замена, вставка) для фиксированного значения расстояния в вектор. Например, слово «Кошка» и фик...

0 голосов
1 ответ
Как получить основную статистику удобочитаемости, используя quanteda в R

Для самого основных открытий в паре сот Pdf, я хочу, чтобы вычислить счет читаемости (Флеш Кинкейд) все эти PDF и представим их в таблице. Мои навыки в R являются недо...

1 голос
1 ответ
Создание пользовательского словаря из вектора символов

Я пытаюсь искать конкретные слова в корпусе с помощью dfm_lookup(). Я действительно борюсь с словарями, необходимыми для dfm_loopup(). Я создал вектор символов с име...

2 голоса
1 ответ
Как я могу самонастройки текст статистика удобочитаемости с использованием quanteda?

Я новичок в обоих самонастройки и пакет quanteda для анализа текста. У меня есть большой корпус текстов, организованных документов типа группы, которые я хотел бы полу...

1 голос
1 ответ
Выбор двух несмежных файлов для формирования суб-корпус в Quanteda

Я надеюсь на советы относительно выбора двух или более несмежных файлов для формирования суб-корпус. Этот код выбирает один файл: testcorpus

0 голосов
1 ответ
Отбор проб KWIC СЛУЧАЙНО Примеры в Quanteda

Я пытаюсь случайным образом выборки примеров KWIC из довольно большого корпуса. Для небольших корпусов, я был в состоянии просмотреть выходной KWIC в полном объеме с и...

1 голос
1 ответ
quanteda: Count число ребер для каждого узла в сети участка

У меня есть сетевой график, вычисленный через textplot_network() функция quanteda пакет.д.я минимального, пожалуйста, обратитесь к должностному лицу quanteda веб-сайт ...

0 голосов
0 ответов
tokens_replace() работает только с stri_trans_general(), а не с кодировкой()

В то время как играть с lemmatizing, удаление игнорируемых слов, происходя и т.д. для немецкого текста, у меня были проблемы с использованием tokens_replace() функция ...

2 голоса
2 ответа
как использовать quanteda на агрегированных данных?

Рассмотрим следующий пример tibble(text = c('a grande latte with soy milk', 'black coffee no room'), repetition = c(100, 2)) # A tibble: 2 x 2...

0 голосов
1 ответ
Преобразование dataframe в корпус

Я использую пример из [здесь]: https://tutorials.quanteda.io/machine-learning/topicmodel/ `require(quanteda) require(quanteda.corpora) require(lubridate) require(topi...

1 голос
2 ответа
Почему LSA в text2vec производить различные результаты каждый раз?

Я использовал латентно-семантический анализ в text2vec пакет для создания векторов слов и с помощью преобразования, чтобы соответствовать новым данным, когда я заметил...

0 голосов
3 ответа
Как удалить одинарные и двойные полукокса маркеры с использованием quanteda :: tokens_select()

Я пытаюсь удалить одинарные и двойные полукокса маркеры. вот пример: toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE) to...

0 голосов
1 ответ
Отбросьте документы из корпуса в Quanteda, если выполнены два условия

corpus_subset определяет документы, которые должны быть сохранены, но что об указании документов уронить? Предположим, например, что я хочу бросить документы, где терм...

-1 голос
1 ответ
как PcGw вычисляется в наивном байесовском quanteda в?

Рассмотрим обычный пример, который повторяет пример из 13.1 An Introduction to Information Retrieval https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf txt ...

1 голос
1 ответ
Удалить пользовательские стоп-слова и фразы, используя quanteda

У меня есть список стопслов, который я хотел бы использовать его, чтобы удалить отдельные фразы из текста: #dummy text df2 <- c("hi my name is Ann and code ...

0 голосов
1 ответ
Избегайте дублирования условий с использованием kwic в Quanteda

Я использую словарь для поиска вхождений терминов в корпусе, где могут встречаться по отдельности, хотя они наиболее часто перекрываются: corpus <- c("According to...

0 голосов
1 ответ
Стебель с quanteda

Я использую следующую команду, чтобы сделать вытекающие используя quanteda myDfm <- dfm(tokens_remove(tokens(df2, remove_punct = TRUE, stem = TRUE, remove_numbers ...

0 голосов
1 ответ
Применение обычая (взвешенный) словарь к тексту на основе анализа настроений

Я ищу, чтобы настроить этот код, чтобы я мог назначить каждый из этих модальных глаголов с разным весом. Идея заключается в том, чтобы использовать что-то похожее на б...

4 голоса
2 ответа
Наивный байесовский в Quanteda против каре: дико разные результаты

Я пытаюсь использовать пакеты quanteda а также caret вместе классифицировать текст на основе обученного образца. В качестве теста я хотел сравнить встраиваемый в наивн...

0 голосов
1 ответ
Как фильтровать DFM по документам, по крайней мере, п членов quanteda?

Я анализ текстовых данных с круглым столом, и я хотел бы знать, если это возможно, чтобы отфильтровать только те документы, которые имеют более чем «п» точка зрения? ...

1 голос
1 ответ
Как импортировать лексикон в формате XML-LMF для анализа настроений в R

Я пытаюсь импортировать следующий лексикон в R, который будет использоваться при добыче текста пакетов, таких как quanteda, или экспортировать его в виде списка или фр...

1 голос
1 ответ
пользовательские словари в quanteda

Мне нужно сделать LIWC (лингвистическое Дознание и Word Count), и я использую quanteda/quanteda.dictionaries. Мне нужно его «загрузка» пользовательские словари: я сохр...

0 голосов
1 ответ
Какие методы я могу использовать для расчета корреляции между словами в квантовой?

Мой вопрос является продолжением это. После очистки моих текстовых данных и визуализации их с помощью wordcloud, Я хочу увидеть, какие слова связаны друг с другом. Зд...

1 голос
2 ответа
Как контролировать размер метки вершины в textplot_network?

Я могу контролировать размер вершины, но не размер метки вершины в textplot_network. Есть ли способ сделать это? Я видел аргумент vertex.cex в plot.network но это не ...

1 голос
2 ответа
Конкретный список стоп-слов Quanteda

Я хотел бы удалить конкретный список со стоп-словами, используя quanteda. Я использую это: df <- data.frame(data = c("Here is an example text and why I write it",...

1 голос
0 ответов
Изолированные узлы в выводе quanteda :: textplot_network() и как их удалить/удалить

Данные в Твиттере анализируются путем построения ручек автора (@mentions) с использованием функции textplot_network() в quanteda (v1.3.4). Однако на графике также пока...

0 голосов
2 ответа
Разбор речевых транскриптов с использованием R

У меня есть несколько больших стенограмм выступлений, которые я пытаюсь получить в формате фрейма данных, где каждая строка представляет речь/высказывание, а имя соотв...

1 голос
2 ответа
Найти слова в корпусе на основе леммы

Я делаю текст минирование с R и я получаю «вопрос» Я хотел бы, чтобы решить... Для того, чтобы найти отчеты в корпусе, которые содержат наибольшее заданное слово или в...

0 голосов
1 ответ
как читать текстовые файлы в quanteda, хранить каждую строку в качестве документа

У меня есть тексты, хранящиеся в нескольких файлах.В файлах каждая строка представляет собой документ (текст сообщения в блоге, текст чириканье и т.д.).Если я читаю с ...

0 голосов
1 ответ
R: Quanteda: могу ли я использовать textstat_keyness на два отдельных корпусах?

использование «textstat_keyness» заключается в следующем: textstat_keyness(x, target = 1L, measure = c("chi2", "exact", "lr", "pmi"), sort = TRUE, correction = c...

6 голосов
1 ответ
Стволовые завершение в R заменяет имена, а не данные

Моя команда делают некоторую тему моделирование на средних кусках текста (десятки тысяч слов), используя пакет Quanteda в R. Я хотел бы, чтобы уменьшить слова к слову ...

1 голос
1 ответ
Высшее weightage к Prefix

Есть ли способ или метод расстояния, чтобы назначить более высокую Weightage для префикса при расчете подобия? Я знаю метод Яро-Винклер, но его применение ограничено с...

1 голос
1 ответ
сегмент корпуса в quanteda

У меня есть один текстовый файл, который содержит много речей. Файл содержит две переменные, одна для speech_id и другой текст из speech и отделены друг от друга трубо...

1 голос
2 ответа
quanteda kwic регулярное выражение операция

Дальнейшее редактирование к исходному вопросу.Вопрос возник ожидание, что регулярные выражения будут работать одинаково или почти до «Grep» или какого-либо язык програ...

0 голосов
0 ответов
Использование словаря французского ANEW для анализа настроений

Аналогично эта почта, Я пытаюсь использовать аффективные Нормы для английских слов (на французском языке) для анализа настроений с Quanteda. Я в конечном счете хочу, ч...

0 голосов
2 ответа
Загрузка нескольких файлов TXT R

Я хочу, чтобы загрузить несколько .txt-файлы. У меня есть кадр данных ' "New_test, в котором веб-адреса в разделе„URL“и Dest. Имен под кодом» "New_test.txt" "url" ...

1 голос
1 ответ
Как х-квадрат ассоциации/keyness рассчитывается в quanteda?

Я пытаюсь понять chisquare расчета за ассоциациями (или корреляции) ключевых слов в целевой и референтной группе. library(quanteda) pres_corpus <- corpus_subse...

2 голоса
2 ответа
удаление специальных апострофа от французских сокращений статьи, когда tokenizing

Я в настоящее время работаю СВТМ (структурная модель) тема из серии статей из французской газеты Le Monde. Модель работает просто отлично, но у меня есть проблемы с пр...

0 голосов
0 ответов
«MV» масштабирование не работает

Я пытаюсь использовать wordscores на корпусе, но когда я использую «мв» перемасштабирование код не удается установить в качестве справочных текстов те, которые я уже в...

1 голос
2 ответа
Добавить документ в R корпус, чтобы найти уникальные слова

У меня есть свод выступлений, и я хотел бы, чтобы идентифицировать уникальные слова в пределах одного вида речи. Это то, что я сделал, я извлек два из корпусов больше...

0 голосов
1 ответ
есть способ, чтобы сохранить данные из Wordcloud или comparison.cloud

Я пытаюсь сохранить данные, которые используются в wordcloud или же comparison.cloud (Или quanteda verison textplot_wordcloud), Но я заметил, когда я сохранить его в п...

0 голосов
1 ответ
Парное Расстояние между документами

Я пытаюсь вычислить сходство строк один документ термин матрицы со строками другого термина документа матрицы. A <- data.frame(name = c( "X-ray right leg arterie...

1 голос
1 ответ
Quanteda textplot_xray сгруппирован по неуникальной docvar как документ

У меня есть Quanteda Корпус 10 документов некоторые из которых являются одним и тем же автором. Я храню автор в отдельной колонке docvar - myCorpus$documents[,"author"...

1 голос
0 ответов
Много пустых пробелов в textplot_wordcloud/comparison.cloud

У меня есть блестящее приложение, что участки с Wordcloud терминов и пытаешься получить его в соответствии с метками внутри приложения трудно. Если я расширяю экран вс...

4 голоса
1 ответ
tidytext, quanteda и тм возвращения различных ТФ-IDF оценки

Я пытаюсь работать на ТФ-IDF взвешенном корпус (где я ожидаю ТФ быть доля от документа, а не простой подсчет). Я бы ожидать, что один и тот же значение, которые возвра...

1 2 right