[ad_1]
Algumas semanas atrás, publicamos uma atualização do pacote BTM (Biterm Topic Models for text) no CRAN.
Os modelos de tópicos Biterm são especialmente úteis se você deseja encontrar tópicos em coleções de textos curtos. Textos curtos são tipicamente uma mensagem no twitter, uma resposta curta em uma pesquisa, o título de um email, perguntas de pesquisa,…. Para esses tipos de textos curtos, os modelos de tópicos tradicionais, como Alocação Latente de Dirichlet, são menos adequados, pois a maioria das informações está disponível em combinações curtas de palavras. O pacote R BTM encontra tópicos em textos tão curtos modelar explicitamente co-ocorrências palavra-palavra (biterms) em uma janela curta.
A atualização que foi enviada ao CRAN algumas semanas atrás agora permite fornecer explicitamente um conjunto de biterms para agrupar. Vamos mostrar um exemplo de agrupamento de um subconjunto de descrições de pacotes R no CRAN. A visualização do cluster resultante se parece com isso.
Se você deseja reproduzir isso, os seguintes trechos mostram como fazer isso. Os passos são os seguintes
Contents
- 1 1. Obtenha alguns dados dos pacotes R e suas descrições em texto simples
- 2 2. Use the udpipe R package to perform Parts of Speech tagging on the package title and descriptions and use udpipe as well for extracting cooccurrences of nouns, adjectives and verbs within 3 words distance.
- 3 3. Crie o modelo de tópico biterm com 9 tópicos e forneça o conjunto de biterms para agrupar
- 4 4. Visualise the biterm topic clusters using the textplot package available at https://github.com/bnosac/textplot. This creates the plot show above.
- 5 Relacionado
1. Obtenha alguns dados dos pacotes R e suas descrições em texto simples
## Get list of packages in the NLP/Machine Learning Task Views
library(ctv)
pkgs names(pkgs) pkgs## Get package descriptions of these packages
library(tools)
x x x$doc_id x$text x$text x$text ", "", x$text)
x2. Use the udpipe R package to perform Parts of Speech tagging on the package title and descriptions and use udpipe as well for extracting cooccurrences of nouns, adjectives and verbs within 3 words distance.
library(udpipe)
library(data.table)
library(stopwords)
anno biterms biterms relevant = upos %in% c("NOUN", "ADJ", "VERB") &
nchar(lemma) > 2 & !lemma %in% stopwords("en"),
skipgram = 3),
by = list(doc_id)]3. Crie o modelo de tópico biterm com 9 tópicos e forneça o conjunto de biterms para agrupar
library(BTM)
set.seed(123456)
traindata 2)
traindata model4. Visualise the biterm topic clusters using the textplot package available at https://github.com/bnosac/textplot. This creates the plot show above.
library(textplot)
library(ggraph)
plot(model, top_n = 10,
title = "BTM model", subtitle = "R packages in the NLP/Machine Learning task views",
labels = c("Garbage", "Neural Nets / Deep Learning", "Topic modelling",
"Regression/Classification Trees/Forests", "Gradient Descent/Boosting",
"GLM/GAM/Penalised Models", "NLP / Tokenisation",
"Text Mining Frameworks / API's", "Variable Selection in High Dimensions"))Apreciar!
Relacionado
Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha seu sabor: e-mail, Twitter, RSS ou facebook ...
[ad_2]