Organizar, filtrar e agrupar linhas em R usando Dplyr

Organizar, filtrar e agrupar linhas em R usando Dplyr

Este tutorial é uma continuação da discussão sobre o pacote dplyr . Você aprenderá como organizar, filtrar e agrupar linhas em R.

A lição anterior foi sobre operações de coluna. Desta vez, o foco estará nas operações de linha em dplyr .

Abordaremos o básico, que inclui classificar e filtrar um conjunto de dados e agregar e resumir registros . Para ter uma visão geral do que esperar desta lição, pense em uma tabela dinâmica no MS Excel.

Índice

Começando

Abra um novo script R no RStudio.

Semelhante à lição de operações de coluna, esta demonstração usará o pacote de conjunto de dados Lahman . Faça o download fazendo uma rápida pesquisa no Google.

Para trazer o pacote Lahman para o R, execute library (Lahman) . Para habilitar o pacote dplyr , execute library (tidyverse) . Além disso, lembre-se de que uma prática recomendada para convenções de nomenclatura em R é usar letras minúsculas, portanto, atribua Teams em teams .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Funções básicas para operações de linha

1. Organize as linhas em R

A primeira operação de linha em dpylr é arranje ( ) . Esta função permite reordenar as linhas. Ele funciona organizando primeiro o quadro de dados df e depois os campos fornecidos.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Por exemplo, vamos classificar por teamID . Execute o arranjo (equipes, teamID) .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Se você quiser que eles sejam organizados em ordem decrescente, você precisa usar a função desc ( ) .

Por exemplo, se você quiser classificar por ano em ordem decrescente, execute organize (teams, desc(yearID)) .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Ao fazer isso, você não está atribuindo a saída de volta às equipes . Você está apenas vendo o resultado no Console.

Também é possível classificar por vários critérios. Por exemplo, se você deseja classificar por teamID e depois yearID em ordem decrescente, basta executar este código:

Organizar, filtrar e agrupar linhas em R usando Dplyr

Ao classificar linhas, você não altera os dados. Os dados estão apenas sendo movidos. Nada está sendo adicionado ou removido.

2. Filtrar linhas em R

A função filtro ( ) adiciona ou remove dados dependendo dos critérios selecionados. Seu código básico é:

Organizar, filtrar e agrupar linhas em R usando Dplyr

Como exemplo, vamos pegar todos os dados onde o yearID é maior ou igual a 2000. Siga o formato da função de filtro e insira as informações necessárias. Em seguida, execute-o. Não se esqueça de atribuir isso a um novo objeto. Nesse caso, foi atribuído ao arquivo .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Para verificar se as linhas foram realmente filtradas, você pode usar a função dim ( ) . Ele fornece o número de linhas e colunas no quadro de dados.

Se você executar dim (teams) , verá que o quadro de dados tem 2.955 linhas e 48 colunas.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Se você executar a função dim em modern , verá que o número de linhas foi reduzido para 630 enquanto o número de colunas permanece o mesmo.

Organizar, filtrar e agrupar linhas em R usando Dplyr

As linhas foram truncadas porque alguns dos registros vão além do ano 2000.

Filtrar linhas por vários campos

Também é possível filtrar linhas por vários campos em R. Você precisará usar as instruções AND e OR .

Por exemplo, vamos filtrar as equipes por área. Nesse caso, um novo objeto ohio é criado. Os critérios de filtro são que teamID deve incluir apenas Cleveland E Cincinnati.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Você precisa usar o sinal de igual duplo ( == ) para verificar a igualdade. Se você usar apenas um sinal de igual, o R o considerará como um operador de atribuição. Use o e comercial ( & ) para representar AND.

Para verificar, use a função dim . Você verá que o número de linhas é 0.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Isso significa que não há times em que ambos estejam baseados em Cleveland e Cincinnati.

Em seguida, vamos tentar o Cleveland OR Cincinnati. O operador OR é representado pelo operador pipe ( | ). Portanto, tudo o que você precisa fazer é substituir o e comercial pelo operador pipe e executá-lo. Em seguida, execute a função dim novamente.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Você verá que existem 251 linhas em vez de zero.

Agora, e se você esquecer de usar um sinal de igual duplo e usar apenas um? Aqui está o que acontece:

Organizar, filtrar e agrupar linhas em R usando Dplyr

O RStudio mostrará uma mensagem de erro muito útil no Console, lembrando você de usar o sinal de igual duplo.

3. Agrupar por e resumir linhas em R

A função agrupar por ( ) permite agregar registros por colunas selecionadas e, com base nessa agregação, resumir outra coluna.

A função group by ( ) segue este algoritmo:

Organizar, filtrar e agrupar linhas em R usando Dplyr

Como exemplo, vamos agrupar por teamID e atribuí-lo a um novo objeto. Nesse caso, o novo objeto é chamado teams_ID . Em seguida, imprima-o.

Organizar, filtrar e agrupar linhas em R usando Dplyr

No console, você notará que a primeira linha diz que é um tibble .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Um tibble é uma melhoria ordenada em relação ao quadro de dados básico. É um recurso do pacote que aumenta e melhora o que está disponível imediatamente.

A segunda linha é Grupos . Portanto, os dados agora são agrupados pela coluna teamID.

Organizar, filtrar e agrupar linhas em R usando Dplyr

E com isso, agora você pode usar a função resumir ( ) nesses grupos.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Observação: a função resumir pode ser com s ou z e dependerá do uso do inglês britânico ou americano.

Por exemplo, vamos resumir teams_ID e obter algumas estatísticas básicas de resumo. Vamos procurar a média, o mínimo e o máximo de vitórias de cada equipe. Lembre-se de destacar todo o código antes de escolher Executar .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Você pode então ver no console que um resumo das estatísticas de cada equipe é exibido. Isso é muito semelhante a uma tabela dinâmica em que você agrega e resume dados.


Quadros de dados em R: aprendendo os
níveis básicos de fatores em R: usando variáveis ​​categóricas e ordinais
Adicionar, remover e renomear colunas em R usando dplyr

Conclusão

Para recapitular, duas operações em dplyr foram discutidas. Um tutorial anterior focado em operações de coluna. Enquanto isso, esta lição atual mostrou como executar operações de linha usando o pacote dplyr no RStudio. Especificamente, você aprendeu como organizar, filtrar e agrupar linhas em R.

A próxima coisa a aprender é como combinar essas duas operações. O uso de todas as funções que você aprendeu até agora o ajudará muito na criação de códigos em R. No entanto, uma técnica mais útil seria um pipeline. Isso ajudará tudo a fluir junto. Portanto, certifique-se de revisar os próximos tutoriais também.


O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.

Apresentar insights usando a técnica de visuais dinâmicos multithread no LuckyTemplates

Apresentar insights usando a técnica de visuais dinâmicos multithread no LuckyTemplates

Este tutorial abordará como usar a técnica Multi Threaded Dynamic Visuals para criar insights de visualizações de dados dinâmicos em seus relatórios.

Introdução ao contexto de filtro no LuckyTemplates

Introdução ao contexto de filtro no LuckyTemplates

Neste artigo, analisarei o contexto do filtro. O contexto do filtro é um dos principais tópicos sobre os quais qualquer usuário do LuckyTemplates deve aprender inicialmente.

Melhores dicas para usar os aplicativos no serviço online do LuckyTemplates

Melhores dicas para usar os aplicativos no serviço online do LuckyTemplates

Quero mostrar como o serviço online do LuckyTemplates Apps pode ajudar no gerenciamento de diferentes relatórios e insights gerados de várias fontes.

Analisar alterações de margem de lucro ao longo do tempo – Analytics com LuckyTemplates e DAX

Analisar alterações de margem de lucro ao longo do tempo – Analytics com LuckyTemplates e DAX

Aprenda a calcular suas alterações de margem de lucro usando técnicas como ramificação de medida e combinação de fórmulas DAX no LuckyTemplates.

Ideias de materialização para caches de dados no DAX Studio

Ideias de materialização para caches de dados no DAX Studio

Este tutorial discutirá sobre as ideias de materialização de caches de dados e como elas afetam o desempenho dos DAXs no fornecimento de resultados.

Relatórios de negócios usando o LuckyTemplates

Relatórios de negócios usando o LuckyTemplates

Se você ainda estiver usando o Excel até agora, este é o melhor momento para começar a usar o LuckyTemplates para suas necessidades de relatórios de negócios.

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber