Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.
A versão 0.9.6 do stringdist chegou ao CRAN em 16 de julho de 2020.
Esta versão traz alguns novos recursos.
Pesquisa de texto difusa
Pesquise no texto correspondências aproximadas de uma sequência de pesquisa usando qualquer distância de distensão. Existem várias funções que permitem que você
- detectar se há uma correspondência a uma certa distância máxima
- retornar a posição da primeira melhor partida
- retorne a melhor correspondência.
Existem várias interfaces para isso. Funções grab
e grabl
trabalhar como base grep
e grepl
. A função extract
tem saída semelhante a stringr::str_extract
. A função cavalo de batalha é chamada afind
(localização aproximada), que retorna todos os resultados para vários padrões de pesquisa.
Há também uma nova implementação da popular distância do ‘cosseno’ que desenvolvi especialmente para esse fim. É chamado de ‘running_cosine’ e evita o trabalho duplo feito pelo método padrão ‘cosine’. O resultado é uma implementação muito mais rápida (até 100 vezes mais rápida).
matrizes de similaridade de string
Graças a um PR de Johannes Gruber, o stringdist agora tem uma função para calcular matrizes de similaridade de strings: stringsimmatrix