R e dplyr práticos – Analisando o conjunto de dados Gapminder

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

[ad_1]

Analisando dados do Gapminder com dplyr

Análise exploratória de dados com dplyr

Quando se trata de análise de dados em R, você não deve procurar além do dplyr pacote. É um excelente polivalente – proporcionando-lhe amplas capacidades de detalhamento enquanto mantém a codificação limpa e mínima.

Você é completamente novo no R? Veja o que você pode fazer com o idioma.

Hoje você aprenderá como fazer análises exploratórias de dados no conhecido Menos espaço conjunto de dados. Ele contém dados históricos (1952-2007) sobre vários indicadores, como expectativa de vida e PIB, para países em todo o mundo.

O artigo está estruturado como segue:

Carregamento do conjunto de dados e exploração básica

Se estiver acompanhando, você precisará ter dois pacotes instalados – dplyr e gapminder. Depois de instalados, você pode importá-los com o seguinte código:

Uma chamada para o head() função irá mostrar as primeiras seis linhas do conjunto de dados:

Imagem 1 - primeiras seis linhas do conjunto de dados Gapminder

Imagem 1 – primeiras seis linhas do conjunto de dados Gapminder

Agora você tem tudo carregado, o que significa que pode começar com a análise.

Vamos começar com algo simples. Por exemplo, digamos que você deseje registros dos Estados Unidos em 1997, 2002 e 2007. Para obtê-los, você terá que filtrar o conjunto de dados por continente, país e ano. Tudo pode ser feito em um único filter() função:

Os resultados são mostrados na seguinte imagem:

Imagem 2 - Registros dos Estados Unidos para 1997, 2002 e 2007

Imagem 2 – Registros dos Estados Unidos para 1997, 2002 e 2007

Então, o que aconteceu aqui? Como você pode ver, você pode usar o filter() função para manter apenas os registros de interesse. Se você precisar de uma correspondência exata, use o == placa. Se vários valores corresponderem ao seu critério de pesquisa, use o %in% operador. Tão simples como isso.

Resumos de dados

As estatísticas resumidas são um excelente ponto de partida em qualquer análise exploratória de dados. Eles permitem que você encontre um valor que melhor descreve uma amostra de dados ou uma lista de valores que melhor representa cada subconjunto da amostra.

Uma média simples é um bom ponto de partida. Veja como você pode encontrar a expectativa de vida média nos Estados Unidos em 2007:

Os resultados são mostrados abaixo:

Imagem 3 - Expectativa média de vida nos Estados Unidos em 2007

Imagem 3 – Expectativa média de vida nos Estados Unidos em 2007

Vamos dar um passo adiante e calcular a expectativa de vida média por continente em 2007. Você precisará usar o group_by() função para fazer isso:

Os resultados são mostrados na seguinte imagem:

Imagem 4 - Esperança média de vida por continente em 2007

Imagem 4 – Esperança média de vida por continente em 2007

Se você for como eu, você achará as informações acima úteis, mas não apresentadas da melhor maneira. Estamos lidando com a expectativa de vida média – o que significa que quanto maior, melhor. Tendo isso em mente, é uma boa prática classificar os resultados em ordem decrescente.

Vamos ver como com um exemplo ligeiramente diferente. O código a seguir classifica os continentes por sua população total:

Os resultados são mostrados abaixo:

Imagem 5 - População total por continente

Imagem 5 – População total por continente

Agora você sabe como calcular estatísticas resumidas básicas – uma parte essencial de qualquer análise de dados. A seguir, você aprenderá como criar colunas derivadas e testar suposições.

Criação de variáveis ​​derivadas e suposições de teste

Uma coluna derivada indica uma coluna introduzida pelo desenvolvedor – geralmente combinando valores de várias colunas diferentes. Por exemplo, você pode calcular o PIB total de um país multiplicando o PIB per capita pela população do país.

Vamos fazer exatamente isso no código. o mutate() função é usada para calcular colunas derivadas. Ele usa a seguinte sintaxe: newColumn = your_calculation:

Os resultados são mostrados na imagem abaixo:

Imagem 6 - Combinação do PIB total por país / ano

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Imagem 6 – Combinação do PIB total por país / ano

Vamos aplicar esse conhecimento a algo útil – suposições de teste. Assumimos que valores mais altos de PIB per capita levam a uma expectativa de vida mais alta. Lembre-se de que não estamos fazendo testes de hipóteses formais aqui – mas examinando os resultados e avaliando se eles fazem sentido para nossa suposição.

Para testar a suposição, você calculará os percentis do lifeExp coluna. Isso lhe dirá quantos por cento dos países têm uma expectativa de vida idêntica ou inferior do que o país atual:

Os resultados são mostrados abaixo:

Imagem 7 - Percentil de expectativa de vida classificado de forma decrescente pelo PIB per capita

Imagem 7 – Percentil de expectativa de vida classificado de forma decrescente pelo PIB per capita

Na imagem acima, você pode ver os países classificados por PIB per capita e seus respectivos percentis de expectativa de vida à direita. Todos os países estão bem acima da média (50º percentil), estando o mais baixo no 68º percentil.

Antes de poder “verificar” a afirmação acima, você terá que olhar para o outro lado – os países com o PIB per capita mais baixo estão localizados perto dos percentis mais baixos?

Você só precisará classificar o conjunto de dados de forma crescente:

Os resultados são mostrados na imagem abaixo:

Imagem 8 - Percentil de expectativa de vida classificado de forma crescente pelo PIB per capita

Imagem 8 – Percentil de expectativa de vida classificado de forma crescente pelo PIB per capita

Sim – nossa afirmação parece fazer todo o sentido. Mais uma vez, este não foi um teste de hipótese formal, mas sim um teste de suposições simples.

Análise Avançada

O termo “avançado” é um pouco abstrato na análise de dados, para dizer pelo menos. Se você é fluente em R e dplyr e tem alguns anos de experiência, não há virtualmente nada que você não possa fazer, então nada parece estar avançado. Por outro lado, mesmo a filtragem e agregação mais básicas podem parecer um grande negócio se você estiver começando.

Por esse motivo, esta seção trata o termo “avançado” como fornecendo a resposta completa para uma pergunta mais complicada – portanto, várias operações são necessárias.

Por exemplo, digamos que você tenha que descobrir os 10 principais países no 90º percentil em relação à expectativa de vida em 2007. Você pode reutilizar parte da lógica das seções anteriores, mas responder a esta pergunta por si só requer vários filtros e subconjuntos:

Como você pode ver, o filter() função foi usada duas vezes – a primeira vez para selecionar o ano e a segunda vez para remover os registros que estão abaixo do percentil 90, já que você está interessado apenas nos dez primeiros. top_n() função é usada para selecionar os melhores n países organizados por uma coluna específica, especificada pelo wt argumento.

Os resultados são mostrados abaixo:

Imagem 9 - 10 principais países acima do 90º percentil (expectativa de vida)

Imagem 9 – 10 principais países acima do 90º percentil (expectativa de vida)

Mas e se você tivesse que calcular o oposto – os 10 piores países abaixo do 10º percentil? A sintaxe é bastante semelhante, exceto para a segunda filtragem e o top_n() função, onde n é prefixado com um sinal de menos:

O prefixo menos garante que os 10 últimos registros sejam mostrados em vez dos 10 principais:

Imagem 10 - Piores 10 países abaixo do 10º percentil (expectativa de vida)

Imagem 10 – Piores 10 países abaixo do 10º percentil (expectativa de vida)

E isso é o suficiente por hoje. Vamos encerrar as coisas na próxima seção.

Conclusão

Hoje você aprendeu como usar o dplyr pacote para análise exploratória de dados. A qualidade da análise depende muito da qualidade de suas perguntas, portanto, certifique-se de fazer as perguntas certas primeiro. Se você sabe como fazer isso, a análise não deve ser um grande problema.

Se você quiser saber mais sobre análise de dados e tudo relacionado a R, fique ligado no blog do Appsilon. Além disso, certifique-se de assinar nosso boletim informativo, para que você nunca perca uma atualização.

Saber mais

Appsilon está contratando para funções remotas! Veja nosso Carreiras página para todas as posições em aberto, incluindo R Shiny Developers, Engenheiros Fullstack, Engenheiros front-end, uma Engenheiro de infraestrutura sênior, e um Gerente de Comunidade. Junte-se à Appsilon e trabalhe em projetos inovadores com as empresas Fortune 500 mais influentes do mundo.

Artigo R e dplyr prático – Analisando o conjunto de dados Gapminder vem do Appsilon | Soluções de ciência de dados de ponta a ponta.



[ad_2]

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
Leia Também  Crítica de “Projeção da dinâmica de transmissão do SARS-CoV-2 durante o período pós-pandemia” - Parte 1: Reproduzindo os resultados