Reamostragem de bootstrap com dados de produção de cerveja #TidyTuesday[0][Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon Rstats em Julia Silge, e gentilmente contribuiu para os R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)
Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.
Venho publicando screencasts demonstrando como usar a estrutura tidymodels, desde as primeiras etapas da modelagem até como ajustar modelos mais complexos. Hoje, estou usando esta semana #TidyTuesday conjunto de dados na produção de cerveja para mostrar como usar a reamostragem de autoinicialização para estimar os parâmetros do modelo.
Aqui está o código que usei no vídeo, para quem prefere ler em vez de ou além do vídeo.
Explore os dados
Nosso objetivo de modelagem aqui é estimar quanto açúcar produtores de cerveja usam em relação a malte de acordo com o conjunto de dados #TidyTuesday. Usaremos a reamostragem de autoinicialização para fazer isso!
Primeiro, vamos analisar os dados sobre os materiais de fermentação.
library(tidyverse)
brewing_materials_raw %
count(type, wt = month_current, sort = TRUE)
## # A tibble: 12 x 2
## type n
##
## 1 Total Used 53559516695
## 2 Total Grain products 44734903124
## 3 Malt and malt products 32697313882
## 4 Total Non-Grain products 8824613571
## 5 Sugar and syrups 6653104081
## 6 Rice and rice products 5685742541
## 7 Corn and corn products 5207759409
## 8 Hops (dry) 1138840132
## 9 Other 998968470
## 10 Barley and barley products 941444745
## 11 Wheat and wheat products 202642547
## 12 Hops (used as extracts) 33700888
Como alguns materiais diferentes de fabricação de cerveja mudaram ao longo do tempo?
brewing_filtered %
filter(
type %in% c(
“Malt and malt products”,
“Sugar and syrups”,
“Hops (dry)”
),
year %
mutate(
date = paste0(year, “-“, month, “-01”),
date = lubridate::ymd(date)
)
brewing_filtered %>%
ggplot(aes(date, month_current, color = type)) +
geom_point()
Existem fortes padrões anuais nesses materiais. Queremos medir quanto os produtores de cerveja com açúcar usam em relação ao malte.
brewing_materials %
select(date, type, month_current) %>%
pivot_wider(
names_from = type,
values_from = month_current
) %>%
janitor::clean_names()
brewing_materials
## # A tibble: 94 x 4
## date malt_and_malt_products sugar_and_syrups hops_dry
##
## 1 2008-01-01 374165152 78358212 4506546
## 2 2008-02-01 355687578 80188744 1815271
## 3 2008-03-01 399855819 78907213 6067167
## 4 2008-04-01 388639443 81199989 6864440
## 5 2008-05-01 411307544 89946309 7470130
## 6 2008-06-01 415161326 81012422 7361941
## 7 2008-07-01 405393784 76728131 1759452
## 8 2008-08-01 389391266 83928121 5992025
## 9 2008-09-01 362587470 71982604 3788942
## 10 2008-10-01 353803777 42828943 3788949
## # … with 84 more rows
brewing_materials %>%
ggplot(aes(malt_and_malt_products, sugar_and_syrups)) +
geom_smooth(method = “lm”) +
geom_point()
Há muita variação nesse relacionamento, mas os reprodutores de cerveja usam mais açúcar quando usam mais malte. Qual é a relação?
library(tidymodels)
beer_fit |t|)
## malt_and_malt_products 0.205804 0.003446 59.72
[ad_1]
; r.parentNode.insertBefore (s, r);
} (documento, ‘script’));
Para Deixe um comentário para o autor, siga o link e comente no blog: Rstats em Julia Silge.
R-bloggers.com oferece atualizações diárias por email sobre notícias e tutoriais do R sobre o aprendizado do R e muitos outros tópicos. Clique aqui se você deseja publicar ou encontrar um emprego em ciência da dados / R.
Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.
[ad_2]