[ad_1]
Neste tutorial, veremos como raspar uma tabela HTML da Wikipedia e processar os dados para encontrar informações nela (ou ingenuamente, para criar um gráfico de visualização de dados).
Youtube – https://youtu.be/KCUj7JQKOJA
Contents
Por quê?
Na maioria das vezes, como cientista de dados ou analista de dados, seus dados podem não estar prontamente disponíveis, portanto, é útil conhecer habilidades como raspagem na Web para coletar seus próprios dados. Embora a raspagem na Web seja uma área vasta, este tutorial se concentra em um aspecto específico, que é “Raspar ou extrair tabelas de páginas da Web”.
Código
library(tidyverse)
content % html_table(fill = TRUE)
first_table % clean_names()
first_table %>%
mutate(lifetime_gross = parse_number(lifetime_gross)) %>%
arrange(desc(lifetime_gross)) %>%
head(20) %>%
mutate(title = fct_reorder(title, lifetime_gross)) %>%
ggplot() + geom_bar(aes(y = title, x = lifetime_gross), stat = "identity", fill = "blue") +
labs(title = "Top 20 Grossing movies in US and Canada",
caption = "Data Source: Wikipedia ")
first_table %>%
mutate(lifetime_gross_2 = parse_number(lifetime_gross_2)) %>%
arrange(desc(lifetime_gross_2)) %>%
head(20) %>%
mutate(title = fct_reorder(title, lifetime_gross_2)) %>%
ggplot() + geom_bar(aes(y = title, x = lifetime_gross_2), stat = "identity", fill = "blue") +
labs(title = "Top 20 Grossing movies in US and Canada",
caption = "Data Source: Wikipedia ")
second_table %
clean_names() -> second_table
second_table %>%
mutate(adjusted_gross = parse_number(adjusted_gross)) %>%
group_by(year) %>%
summarise(total_adjusted_gross = sum(adjusted_gross)) %>%
arrange(desc(total_adjusted_gross)) %>%
ggplot() + geom_line(aes(x = year,y = total_adjusted_gross, group = 1))
Relacionado
Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha seu sabor: e-mail, Twitter, RSS ou facebook …
[ad_2]