[ad_1]
[Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon Profundamente Trivial, e gentilmente contribuiu para os R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)
Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.
Na letra D, vou falar sobre as funções dummy_cols, que na verdade não fazem parte da ordem, mas ei: minhas postagens, minhas regras. Essa função é incrivelmente útil para criar variáveis fictícias, que são usadas de várias maneiras, incluindo regressão múltipla com variáveis categóricas. Ao realizar a regressão linear, a suposição é que as variáveis preditor e resultado são numéricas. Para incluir variáveis categóricas, você precisa convertê-las em variáveis numéricas. Se eles não forem estritamente contínuos, crie variáveis fictícias para representar as diferentes categorias. Se eu tivesse três níveis em uma variável categórica, precisaria de duas variáveis fictícias: uma para delinear a categoria 1 das outras 2 e outra para delinear a categoria 2 (com a terceira categoria sendo representada por 0s nas outras duas variáveis).
Obviamente, existem outros usos para variáveis fictícias. Por exemplo, no trabalho, eu estava examinando usuários únicos do nosso sistema de testes por hora do dia. Nosso sistema cria uma linha para cada ação do usuário, com um carimbo de data / hora. Se eu simplesmente gerasse contagens dessas linhas durante períodos de tempo, obteria uma contagem de ações por hora por usuários (cliques, destaques etc.), em vez de usuários individuais conectados durante uma determinada hora. Então, eu criei códigos fictícios por hora do dia, depois agreguei pelo identificador de usuário exclusivo. Era assim que eu podia gerar contagens precisas de quantos usuários estavam online durante uma determinada hora.
Para aplicar esse procedimento ao conjunto de dados de leitura, usei a função dummy_cols para criar variáveis fictícias (ou sinalizadores) para o gênero. Criei um conjunto de dados de formato longo dos principais gêneros para cada título, que você pode baixar aqui. Por uma questão de simplicidade, esse arquivo contém apenas Book.ID, título e gênero (com uma entrada separada para cada gênero, para que alguns livros tenham uma única linha, para um gênero, e outros tenham várias linhas, para refletir vários gêneros).
longreads2019 read_csv("~/Downloads/Blogging A to Z/reads2019_long.csv")
Posso usar as funções dummy_cols para criar os sinalizadores de gênero, que podem ser agregados e mesclados no arquivo read2019 (criei uma versão sem sinalizadores de gênero, disponível aqui). Para esta função, você precisará do pacote fastDummies (adicione install.packages (“fastDummies”) antes do restante do código). Além disso, como o número de variáveis de código fictício normalmente é igual ao número de categorias menos 1, a função remove automaticamente a primeira variável fictícia do arquivo final. Como os estou usando como sinalizadores em vez de variáveis fictícias, desejo substituir esse padrão, o que faço com remove_first_dummy = FALSE.
library(fastDummies)genres longreads2019 %>%
dummy_cols(select_columns = "genre", remove_first_dummy = FALSE)genres genres %>%
group_by(Book.ID) %>%
summarise(Fiction = max(genre_Fiction),
Childrens = max(genre_Childrens),
Fantasy = max(genre_Fantasy),
SciFi = max(genre_SciFi),
Mystery = max(genre_Mystery),
SelfHelp = max(genre_SelfHelp))reads2019 read_csv("~/Downloads/Blogging A to Z/ReadsNoGenre.csv",
col_names = TRUE)
reads2019 reads2019 %>%
left_join(genres, by = "Book.ID")
Sei que já joguei outras funções organizadas nessas postagens, como group_by e resumir. Não se preocupe! Vou postar mais sobre essas funções nesta série – fique ligado!
Relacionado
Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha seu sabor: e-mail, Twitter, RSS ou facebook …
[ad_2]