Modelagem de tópicos Biterm para textos curtos

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Algumas semanas atrás, publicamos uma atualização do pacote BTM (Biterm Topic Models for text) no CRAN.

Os modelos de tópicos Biterm são especialmente úteis se você deseja encontrar tópicos em coleções de textos curtos. Textos curtos são tipicamente uma mensagem no twitter, uma resposta curta em uma pesquisa, o título de um email, perguntas de pesquisa,…. Para esses tipos de textos curtos, os modelos de tópicos tradicionais, como Alocação Latente de Dirichlet, são menos adequados, pois a maioria das informações está disponível em combinações curtas de palavras. O pacote R BTM encontra tópicos em textos tão curtos modelar explicitamente co-ocorrências palavra-palavra (biterms) em uma janela curta.

A atualização que foi enviada ao CRAN algumas semanas atrás agora permite fornecer explicitamente um conjunto de biterms para agrupar. Vamos mostrar um exemplo de agrupamento de um subconjunto de descrições de pacotes R no CRAN. A visualização do cluster resultante se parece com isso.

exemplo de modelo de tópico biterm

Se você deseja reproduzir isso, os seguintes trechos mostram como fazer isso. Os passos são os seguintes

1. Obtenha alguns dados dos pacotes R e suas descrições em texto simples

## Get list of packages in the NLP/Machine Learning Task Views
library(ctv)
pkgs names(pkgs) pkgs

## Get package descriptions of these packages
library(tools)
x x x$doc_id x$text   x$text   x$text   ", "", x$text)
x

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

2. Use the udpipe R package to perform Parts of Speech tagging on the package title and descriptions and use udpipe as well for extracting cooccurrences of nouns, adjectives and verbs within 3 words distance.

library(udpipe)
library(data.table)
library(stopwords)
anno biterms biterms                                   relevant = upos %in% c("NOUN", "ADJ", "VERB") &
nchar(lemma) > 2 & !lemma %in% stopwords("en"),
                                  skipgram = 3),
                   by = list(doc_id)]

3. Crie o modelo de tópico biterm com 9 tópicos e forneça o conjunto de biterms para agrupar

library(BTM)
set.seed(123456)
traindata 2)
traindata model    

4. Visualise the biterm topic clusters using the textplot package available at https://github.com/bnosac/textplot. This creates the plot show above.

library(textplot)
library(ggraph)
plot(model, top_n = 10,
     title = "BTM model", subtitle = "R packages in the NLP/Machine Learning task views",
     labels = c("Garbage", "Neural Nets / Deep Learning", "Topic modelling",
"Regression/Classification Trees/Forests", "Gradient Descent/Boosting",
"GLM/GAM/Penalised Models", "NLP / Tokenisation",
                "Text Mining Frameworks / API's", "Variable Selection in High Dimensions"))

Apreciar!



Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha seu sabor: e-mail, Twitter, RSS ou facebook ...



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
Leia Também  Como padronizar cores de grupo em visualizações de dados em R