Selecionar colunas de um quadro de dados

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


[Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon Quantargo Blog, e gentilmente contribuiu para R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.

Para selecionar apenas um conjunto específico de colunas interessantes do quadro de dados dplyr oferece o select() função para extrair colunas por nomes, índices e intervalos. Você pode até renomear colunas extraídas com select().

  • Aprenda a usar o select() função
  • Selecionar colunas de um quadro de dados por nome ou índice
  • Renomear colunas de um quadro de dados
select(my_data_frame, column_one, column_two, ...)
select(my_data_frame, new_column_name = current_column, ...)
select(my_data_frame, column_start:column_end)
select(my_data_frame, index_one, index_two, ...)
select(my_data_frame, index_start:index_end)

Selecionando pelo nome

select(my_data_frame, column_one, column_two, ...)
select(my_data_frame, new_column_name = current_column, ...)
select(my_data_frame, column_start:column_end)
select(my_data_frame, index_one, index_two, ...)
select(my_data_frame, index_start:index_end)

Neste capítulo, daremos uma olhada no pres_results conjunto de dados do dados políticos pacote. Ele contém dados sobre as eleições presidenciais dos EUA desde 1976, convertidas em um Tibble para uma impressão melhor.

# A tibble: 561 x 6
   year state total_votes   dem   rep   other
               
1  1976 AK         123574 0.357 0.579 0.0549 
2  1976 AL        1182850 0.557 0.426 0.0163 
3  1976 AR         767535 0.650 0.349 0.00134
# … with 558 more rows

Neste exemplo, veremos o número total de votos em diferentes estados em diferentes eleições. Como estamos interessados ​​apenas no número de pessoas que votaram, gostaríamos de criar uma versão personalizada do pres_results quadro de dados que contém apenas as colunas year, state e total_votes. Para essa filtragem, podemos usar o select() ficção do dplyr pacote.

o select() A função pega um quadro de dados como um parâmetro de entrada e nos permite decidir quais das colunas queremos manter dele. A saída da função é um quadro de dados com todas as linhas, mas contendo apenas as colunas que selecionamos explicitamente.

Leia Também  Rcpp 1.0.5: Várias atualizações | R-bloggers

Podemos reduzir nosso conjunto de dados para apenas year, state e total_votes Da seguinte maneira:

select(pres_results, year, state, total_votes)
# A tibble: 561 x 3
   year state total_votes
          
1  1976 AK         123574
2  1976 AL        1182850
3  1976 AR         767535
# … with 558 more rows

Como primeiro parâmetro, passamos o pres_results quadro de dados, como os demais parâmetros passamos pelas colunas que queremos manter select().

Além de manter as colunas que queremos, o select() A função também os mantém na mesma ordem especificada nos parâmetros da função.

Se mudarmos a ordem dos parâmetros quando chamamos a função, as colunas da saída mudam de acordo:

select(pres_results, total_votes, year, state)
# A tibble: 561 x 3
  total_votes  year state
          
1      123574  1976 AK   
2     1182850  1976 AL   
3      767535  1976 AR   
# … with 558 more rows

Exercício: Expectativa de vida na Áustria

o gapminder_austria O conjunto de dados contém informações sobre as mudanças econômicas e demográficas na Áustria nas últimas décadas. Para inspecionar como a expectativa de vida na Áustria mudou ao longo do tempo, crie um subconjunto da linguagem que contenha apenas as colunas necessárias para esta tarefa:

  1. Use o dplyr select() funcionar e definir gapminder_austria como a entrada de entrada.
  2. Mantenha apenas as colunas year e lifeExp no conjunto de dados de saída.

Observe que o dplyr o pacote já está carregado.

Iniciar exercício

Renomeando colunas

select(my_data_frame, column_one, column_two, ...)
select(my_data_frame, new_column_name = current_column, ...)
select(my_data_frame, column_start:column_end)
select(my_data_frame, index_one, index_two, ...)
select(my_data_frame, index_start:index_end)

Além de definir as colunas que queremos manter, também podemos renomeá-las. Para fazer isso, precisamos definir o novo nome da coluna dentro do select() função usando o comando

new_column_name = current_column

No exemplo a seguir, selecionamos as colunas year, state e total_votes mas renomeie o year coluna para Election na saída:

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
select(pres_results, Election = year, state, total_votes)
# A tibble: 561 x 3
  Election state total_votes
             
1     1976 AK         123574
2     1976 AL        1182850
3     1976 AR         767535
# … with 558 more rows

Exercício: Renomear colunas

o gapminder_india O conjunto de dados contém informações sobre as mudanças econômicas e demográficas na Índia nas últimas décadas. Inspecione como a população da Índia mudou ao longo do tempo:

  1. Use o select() funcionar e definir gapminder_india como a entrada de entrada.
  2. Mantenha apenas as colunas year e pop.
  3. Renomeie o pop coluna para population na tag de saída.
Leia Também  Qual é o seu "por que"? - Mamãe e papai Dinheiro

Observe que o dplyr o pacote já está carregado.

Iniciar exercício

Selecionando por intervalo de nomes

select(my_data_frame, column_one, column_two, ...)
select(my_data_frame, new_column_name = current_column, ...)
select(my_data_frame, column_start:column_end)
select(my_data_frame, index_one, index_two, ...)
select(my_data_frame, index_start:index_end)

Quando usamos o select() funcionar e definir as colunas que queremos manter, dplyr na verdade, não usa o nome das colunas, mas o índice das colunas no quadro de dados. Isso significa que, quando definimos as três primeiras colunas do pres_results quadro de dados, year, state e total_votes, dplyr converte esses nomes nos valores de índice 1, 2 e 3. Portanto, também podemos usar o nome das colunas, aplicar o : operador e defina intervalos de colunas que queremos manter:

select(pres_results, year:total_votes)
# A tibble: 561 x 3
   year state total_votes
          
1  1976 AK         123574
2  1976 AL        1182850
3  1976 AR         767535
# … with 558 more rows

O que year:total_votes pode, pode ser traduzido para 1:3, que está simplesmente criando um vetor de valores numéricos de 1 a 3. Em seguida, o select() função leva o pres_results quadro de dados e gera um subconjunto dele, mantendo apenas as três primeiras colunas.

Exercício: selecione um intervalo de nomes

o gapminder_europe_2007 O conjunto de dados contém informações econômicas e demográficas sobre os países europeus para o ano de 2007:

# A tibble: 30 x 6
  country continent  year lifeExp      pop gdpPercap
                      
1 Albania Europe     2007    76.4  3600523     5937.
2 Austria Europe     2007    79.8  8199783    36126.
3 Belgium Europe     2007    79.4 10392226    33693.
# … with 27 more rows

Crie um subconjunto da ração e compare a expectativa de vida em diferentes países europeus para o ano de 2007:

  1. Aplicar o select() função no gapminder_europe_2007 mexer.
  2. Use o : operador e selecione as colunas de country para lifeExp.

Observe que o dplyr o pacote já está carregado.

Iniciar exercício

Selecionar () por índices

select(my_data_frame, column_one, column_two, ...)
select(my_data_frame, new_column_name = current_column, ...)
select(my_data_frame, column_start:column_end)
select(my_data_frame, index_one, index_two, ...)
select(my_data_frame, index_start:index_end)

o select() A função também pode ser usada com índices de coluna. Em vez de usar nomes, precisamos especificar as colunas que queremos selecionar por seus índices. Comparada com outras linguagens de programação, a indexação em R começa com 1 ao invés de zero. Para selecionar a primeira, quarta e quinta coluna do pres_results conjunto de dados que podemos escrever

select(pres_results, 1,4,5)
# A tibble: 561 x 3
   year   dem   rep
    
1  1976 0.357 0.579
2  1976 0.557 0.426
3  1976 0.650 0.349
# … with 558 more rows

Da mesma forma que para definir intervalos de colunas usando seus nomes, podemos definir intervalos (ou vetores) de valores de índice:

select(pres_results, 1:3)
# A tibble: 561 x 3
   year state total_votes
          
1  1976 AK         123574
2  1976 AL        1182850
3  1976 AR         767535
# … with 558 more rows

Exercício: selecione por índices

o gapminder_europe_2007 O conjunto de dados contém informações econômicas e demográficas sobre os países europeus para o ano de 2007.

# A tibble: 30 x 6
  country continent  year lifeExp      pop gdpPercap
                      
1 Albania Europe     2007    76.4  3600523     5937.
2 Austria Europe     2007    79.8  8199783    36126.
3 Belgium Europe     2007    79.4 10392226    33693.
# … with 27 more rows

Crie um subconjunto do conjunto de dados e compare o PIB per capita dos países europeus para o ano de 2007:

  1. Aplicar o select() função no gapminder_europe_2007 mexer.
  2. Mantenha as colunas country e gdpPercap, mas use apenas o índice das colunas (1e 6) para esta etapa.
Leia Também  Tribe Payments lança Bankbox para melhorar o acesso aos sistemas bancários

Observe que o dplyr o pacote já está carregado.

Iniciar exercício

Selecionar colunas de um quadro de dados é um trecho do curso Introdução ao R, disponível gratuitamente em quantargo.com

VER CURSO COMPLETO



Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha o seu sabor: e-mail, twitter, RSS ou facebook …



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br