Вопросы с тегом 'quanteda'

Количество результатов: 33

0 голосов
3 ответа
Как удалить одинарные и двойные полукокса маркеры с использованием quanteda :: tokens_select()

Я пытаюсь удалить одинарные и двойные полукокса маркеры. вот пример: toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE) to...

0 голосов
1 ответ
Отбросьте документы из корпуса в Quanteda, если выполнены два условия

corpus_subset определяет документы, которые должны быть сохранены, но что об указании документов уронить? Предположим, например, что я хочу бросить документы, где терм...

-1 голос
1 ответ
как PcGw вычисляется в наивном байесовском quanteda в?

Рассмотрим обычный пример, который повторяет пример из 13.1 An Introduction to Information Retrieval https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf txt ...

1 голос
1 ответ
Удалить пользовательские стоп-слова и фразы, используя quanteda

У меня есть список стопслов, который я хотел бы использовать его, чтобы удалить отдельные фразы из текста: #dummy text df2 <- c("hi my name is Ann and code ...

0 голосов
1 ответ
Избегайте дублирования условий с использованием kwic в Quanteda

Я использую словарь для поиска вхождений терминов в корпусе, где могут встречаться по отдельности, хотя они наиболее часто перекрываются: corpus <- c("According to...

0 голосов
1 ответ
Стебель с quanteda

Я использую следующую команду, чтобы сделать вытекающие используя quanteda myDfm <- dfm(tokens_remove(tokens(df2, remove_punct = TRUE, stem = TRUE, remove_numbers ...

0 голосов
1 ответ
Применение обычая (взвешенный) словарь к тексту на основе анализа настроений

Я ищу, чтобы настроить этот код, чтобы я мог назначить каждый из этих модальных глаголов с разным весом. Идея заключается в том, чтобы использовать что-то похожее на б...

4 голоса
2 ответа
Наивный байесовский в Quanteda против каре: дико разные результаты

Я пытаюсь использовать пакеты quanteda а также caret вместе классифицировать текст на основе обученного образца. В качестве теста я хотел сравнить встраиваемый в наивн...

0 голосов
1 ответ
Как фильтровать DFM по документам, по крайней мере, п членов quanteda?

Я анализ текстовых данных с круглым столом, и я хотел бы знать, если это возможно, чтобы отфильтровать только те документы, которые имеют более чем «п» точка зрения? ...

1 голос
1 ответ
Как импортировать лексикон в формате XML-LMF для анализа настроений в R

Я пытаюсь импортировать следующий лексикон в R, который будет использоваться при добыче текста пакетов, таких как quanteda, или экспортировать его в виде списка или фр...

1 голос
1 ответ
пользовательские словари в quanteda

Мне нужно сделать LIWC (лингвистическое Дознание и Word Count), и я использую quanteda/quanteda.dictionaries. Мне нужно его «загрузка» пользовательские словари: я сохр...

0 голосов
1 ответ
Какие методы я могу использовать для расчета корреляции между словами в квантовой?

Мой вопрос является продолжением это. После очистки моих текстовых данных и визуализации их с помощью wordcloud, Я хочу увидеть, какие слова связаны друг с другом. Зд...

1 голос
2 ответа
Как контролировать размер метки вершины в textplot_network?

Я могу контролировать размер вершины, но не размер метки вершины в textplot_network. Есть ли способ сделать это? Я видел аргумент vertex.cex в plot.network но это не ...

1 голос
2 ответа
Конкретный список стоп-слов Quanteda

Я хотел бы удалить конкретный список со стоп-словами, используя quanteda. Я использую это: df <- data.frame(data = c("Here is an example text and why I write it",...

1 голос
0 ответов
Изолированные узлы в выводе quanteda :: textplot_network() и как их удалить/удалить

Данные в Твиттере анализируются путем построения ручек автора (@mentions) с использованием функции textplot_network() в quanteda (v1.3.4). Однако на графике также пока...

0 голосов
2 ответа
Разбор речевых транскриптов с использованием R

У меня есть несколько больших стенограмм выступлений, которые я пытаюсь получить в формате фрейма данных, где каждая строка представляет речь/высказывание, а имя соотв...

2 голоса
1 ответ
расчетный документ энтропию Term

С помощью dtm можно принять термин частоты. Как это возможно, или есть ли простой способ расчета энтропия? Это дает больший вес к терминам с меньшей частотой, в некот...

2 голоса
1 ответ
Как создать quanteda корпус из data.frame с несколькими колонками для текста?

позволяет сказать, что у меня есть следующие: x10 = data.frame(id = c(1,2,3),vars =c('top','down','top'), text1=c('this is text','so is this','and this is too.'...

0 голосов
1 ответ
Выборочный список стоп-слов удалить

Я пытаюсь использовать настраиваемый список слов, чтобы удалить фразы из текста. Это воспроизводимость пример. Я думаю, что что-то не в порядке с моей попыткой: mys...

0 голосов
1 ответ
не может установить quanteda либо непосредственно, либо с помощью источника

Я пытался непосредственно установить пакет, его версию GitHub или от источника к чему не привели. Это сообщение об ошибке: During startup - Warning messages: 1: Set...

0 голосов
1 ответ
2 слово Фраза коллокаций с использованием quanteda в R

Это касается функциональности textstat_collocations в quanteda пакете в R. я получаю более 2 слов, фразы на выходе, даже если я запрашивающий только для 2-х слов фразы...

0 голосов
1 ответ
Преобразование DFM в DocumentTermMatrix

Имея dataframe вроде этого: df <- structure(list(text = c("Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa...

0 голосов
2 ответа
ntokens применяется к VCorpus

Я выполнить следующие команды: library(tm) library(dplyr) library(stringi) library(quanteda) df <- structure(list(text = c("Lorem ipsum dolor sit amet, consectetue...

0 голосов
0 ответов
R Регулярное выражение для поиска цитат закона с использованием tidytext и tm

я использую tidytext, tm а также quantedaдля добычи текста. Я стараюсь: фильтровать tibble с простым, обработанным текстом в соответствии с наличием ссылки на закон...

0 голосов
1 ответ
R квантированная библиотека, ошибка при создании корпуса

У меня есть любопытная ошибка, которая случается только в моих коллегах RStudio, когда они запускают код. Код имеет дело с текстовым корпусом, и вот что я делаю: ap.c...

2 голоса
1 ответ
QUANTEDA - неправильный класс объекта «dfmSparse»

Я получаю это предупреждение-сообщение. Я использую эти данные: https://github.com/kbenoit/quanteda/tree/master/data/data_char_inaugural.RData RStudio версия: Верси...

1 голос
1 ответ
Документ Сходство само плагиат

У меня есть тысячи маленьких документов из 100 различных авторов. С помощью quanteda пакет, я вычислил косинус сходства между авторами с самими собой. Например, автор ...

0 голосов
1 ответ
R: инициализировать пустую dgCMatrix, заданную умножением матриц двух разреженных матриц Quanteda DFM?

Я за такой цикл, пытаясь реализовать решение вот, с пустышками такими, что aaa <- DFM %*% t(DFM) #DFM is Quanteda dfm-sparse-matrix for(i in 1:nrow(aaa)) aaa[i,]...

1 голос
1 ответ
R: removeCommonTerms с пакетом Quanteda?

Функция removeCommonTerms найдена вот для пакета ТМ такой, что removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDoc...

4 голоса
1 ответ
R: удаление регулярных выражений из Quanteda DFM, Разреженная матрица возможностей документа, объект?

Пакет Quanteda предоставляет разреженную матрицу функций документа DFM, а его методы содержат removeFeatures. я пытался dfm(x, removeFeatures="\\b[a-z]{1-3}\\b") удали...

0 голосов
2 ответа
R: умножение разреженной матрицы на data.table и пакет quanteda?

Я пытаюсь создать матричную мультипликацию с разреженной матрицей и с пакетом quanteda, используя пакет data.table, связанный с этим потоком. вот. Так require(quante...

0 голосов
1 ответ
R в Windows не может обрабатывать некоторые символы

Я выполнил LDA в Linux и не получил символы типа «ø» в теме 2. Однако при запуске в Windows они отображаются. Кто-нибудь знает, как с этим бороться? Я использовал паке...

0 голосов
1 ответ
Quanteda Ngram работает с Mac, но ломается в Windows 7

У меня есть набор текстов, которые я обрабатываю для проект.д.она Хопкинса Капстона. Я использую Quanteda в качестве основной библиотеки обработки текста. Я работаю на...