Organizar, filtrar e agrupar linhas em R usando Dplyr

Organizar, filtrar e agrupar linhas em R usando Dplyr

Este tutorial é uma continuação da discussão sobre o pacote dplyr . Você aprenderá como organizar, filtrar e agrupar linhas em R.

A lição anterior foi sobre operações de coluna. Desta vez, o foco estará nas operações de linha em dplyr .

Abordaremos o básico, que inclui classificar e filtrar um conjunto de dados e agregar e resumir registros . Para ter uma visão geral do que esperar desta lição, pense em uma tabela dinâmica no MS Excel.

Índice

Começando

Abra um novo script R no RStudio.

Semelhante à lição de operações de coluna, esta demonstração usará o pacote de conjunto de dados Lahman . Faça o download fazendo uma rápida pesquisa no Google.

Para trazer o pacote Lahman para o R, execute library (Lahman) . Para habilitar o pacote dplyr , execute library (tidyverse) . Além disso, lembre-se de que uma prática recomendada para convenções de nomenclatura em R é usar letras minúsculas, portanto, atribua Teams em teams .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Funções básicas para operações de linha

1. Organize as linhas em R

A primeira operação de linha em dpylr é arranje ( ) . Esta função permite reordenar as linhas. Ele funciona organizando primeiro o quadro de dados df e depois os campos fornecidos.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Por exemplo, vamos classificar por teamID . Execute o arranjo (equipes, teamID) .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Se você quiser que eles sejam organizados em ordem decrescente, você precisa usar a função desc ( ) .

Por exemplo, se você quiser classificar por ano em ordem decrescente, execute organize (teams, desc(yearID)) .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Ao fazer isso, você não está atribuindo a saída de volta às equipes . Você está apenas vendo o resultado no Console.

Também é possível classificar por vários critérios. Por exemplo, se você deseja classificar por teamID e depois yearID em ordem decrescente, basta executar este código:

Organizar, filtrar e agrupar linhas em R usando Dplyr

Ao classificar linhas, você não altera os dados. Os dados estão apenas sendo movidos. Nada está sendo adicionado ou removido.

2. Filtrar linhas em R

A função filtro ( ) adiciona ou remove dados dependendo dos critérios selecionados. Seu código básico é:

Organizar, filtrar e agrupar linhas em R usando Dplyr

Como exemplo, vamos pegar todos os dados onde o yearID é maior ou igual a 2000. Siga o formato da função de filtro e insira as informações necessárias. Em seguida, execute-o. Não se esqueça de atribuir isso a um novo objeto. Nesse caso, foi atribuído ao arquivo .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Para verificar se as linhas foram realmente filtradas, você pode usar a função dim ( ) . Ele fornece o número de linhas e colunas no quadro de dados.

Se você executar dim (teams) , verá que o quadro de dados tem 2.955 linhas e 48 colunas.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Se você executar a função dim em modern , verá que o número de linhas foi reduzido para 630 enquanto o número de colunas permanece o mesmo.

Organizar, filtrar e agrupar linhas em R usando Dplyr

As linhas foram truncadas porque alguns dos registros vão além do ano 2000.

Filtrar linhas por vários campos

Também é possível filtrar linhas por vários campos em R. Você precisará usar as instruções AND e OR .

Por exemplo, vamos filtrar as equipes por área. Nesse caso, um novo objeto ohio é criado. Os critérios de filtro são que teamID deve incluir apenas Cleveland E Cincinnati.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Você precisa usar o sinal de igual duplo ( == ) para verificar a igualdade. Se você usar apenas um sinal de igual, o R o considerará como um operador de atribuição. Use o e comercial ( & ) para representar AND.

Para verificar, use a função dim . Você verá que o número de linhas é 0.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Isso significa que não há times em que ambos estejam baseados em Cleveland e Cincinnati.

Em seguida, vamos tentar o Cleveland OR Cincinnati. O operador OR é representado pelo operador pipe ( | ). Portanto, tudo o que você precisa fazer é substituir o e comercial pelo operador pipe e executá-lo. Em seguida, execute a função dim novamente.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Você verá que existem 251 linhas em vez de zero.

Agora, e se você esquecer de usar um sinal de igual duplo e usar apenas um? Aqui está o que acontece:

Organizar, filtrar e agrupar linhas em R usando Dplyr

O RStudio mostrará uma mensagem de erro muito útil no Console, lembrando você de usar o sinal de igual duplo.

3. Agrupar por e resumir linhas em R

A função agrupar por ( ) permite agregar registros por colunas selecionadas e, com base nessa agregação, resumir outra coluna.

A função group by ( ) segue este algoritmo:

Organizar, filtrar e agrupar linhas em R usando Dplyr

Como exemplo, vamos agrupar por teamID e atribuí-lo a um novo objeto. Nesse caso, o novo objeto é chamado teams_ID . Em seguida, imprima-o.

Organizar, filtrar e agrupar linhas em R usando Dplyr

No console, você notará que a primeira linha diz que é um tibble .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Um tibble é uma melhoria ordenada em relação ao quadro de dados básico. É um recurso do pacote que aumenta e melhora o que está disponível imediatamente.

A segunda linha é Grupos . Portanto, os dados agora são agrupados pela coluna teamID.

Organizar, filtrar e agrupar linhas em R usando Dplyr

E com isso, agora você pode usar a função resumir ( ) nesses grupos.

Organizar, filtrar e agrupar linhas em R usando Dplyr

Observação: a função resumir pode ser com s ou z e dependerá do uso do inglês britânico ou americano.

Por exemplo, vamos resumir teams_ID e obter algumas estatísticas básicas de resumo. Vamos procurar a média, o mínimo e o máximo de vitórias de cada equipe. Lembre-se de destacar todo o código antes de escolher Executar .

Organizar, filtrar e agrupar linhas em R usando Dplyr

Você pode então ver no console que um resumo das estatísticas de cada equipe é exibido. Isso é muito semelhante a uma tabela dinâmica em que você agrega e resume dados.


Quadros de dados em R: aprendendo os
níveis básicos de fatores em R: usando variáveis ​​categóricas e ordinais
Adicionar, remover e renomear colunas em R usando dplyr

Conclusão

Para recapitular, duas operações em dplyr foram discutidas. Um tutorial anterior focado em operações de coluna. Enquanto isso, esta lição atual mostrou como executar operações de linha usando o pacote dplyr no RStudio. Especificamente, você aprendeu como organizar, filtrar e agrupar linhas em R.

A próxima coisa a aprender é como combinar essas duas operações. O uso de todas as funções que você aprendeu até agora o ajudará muito na criação de códigos em R. No entanto, uma técnica mais útil seria um pipeline. Isso ajudará tudo a fluir junto. Portanto, certifique-se de revisar os próximos tutoriais também.


Colunas calculadas no SharePoint | Uma visão geral

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis ​​e expressões dentro do editor do Power Query

Variáveis ​​e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.