O que é self em Python: exemplos do mundo real
O que é self em Python: exemplos do mundo real
Este tutorial é uma continuação da discussão sobre o pacote dplyr . Você aprenderá como organizar, filtrar e agrupar linhas em R.
A lição anterior foi sobre operações de coluna. Desta vez, o foco estará nas operações de linha em dplyr .
Abordaremos o básico, que inclui classificar e filtrar um conjunto de dados e agregar e resumir registros . Para ter uma visão geral do que esperar desta lição, pense em uma tabela dinâmica no MS Excel.
Índice
Começando
Abra um novo script R no RStudio.
Semelhante à lição de operações de coluna, esta demonstração usará o pacote de conjunto de dados Lahman . Faça o download fazendo uma rápida pesquisa no Google.
Para trazer o pacote Lahman para o R, execute library (Lahman) . Para habilitar o pacote dplyr , execute library (tidyverse) . Além disso, lembre-se de que uma prática recomendada para convenções de nomenclatura em R é usar letras minúsculas, portanto, atribua Teams em teams .
Funções básicas para operações de linha
1. Organize as linhas em R
A primeira operação de linha em dpylr é arranje ( ) . Esta função permite reordenar as linhas. Ele funciona organizando primeiro o quadro de dados df e depois os campos fornecidos.
Por exemplo, vamos classificar por teamID . Execute o arranjo (equipes, teamID) .
Se você quiser que eles sejam organizados em ordem decrescente, você precisa usar a função desc ( ) .
Por exemplo, se você quiser classificar por ano em ordem decrescente, execute organize (teams, desc(yearID)) .
Ao fazer isso, você não está atribuindo a saída de volta às equipes . Você está apenas vendo o resultado no Console.
Também é possível classificar por vários critérios. Por exemplo, se você deseja classificar por teamID e depois yearID em ordem decrescente, basta executar este código:
Ao classificar linhas, você não altera os dados. Os dados estão apenas sendo movidos. Nada está sendo adicionado ou removido.
2. Filtrar linhas em R
A função filtro ( ) adiciona ou remove dados dependendo dos critérios selecionados. Seu código básico é:
Como exemplo, vamos pegar todos os dados onde o yearID é maior ou igual a 2000. Siga o formato da função de filtro e insira as informações necessárias. Em seguida, execute-o. Não se esqueça de atribuir isso a um novo objeto. Nesse caso, foi atribuído ao arquivo .
Para verificar se as linhas foram realmente filtradas, você pode usar a função dim ( ) . Ele fornece o número de linhas e colunas no quadro de dados.
Se você executar dim (teams) , verá que o quadro de dados tem 2.955 linhas e 48 colunas.
Se você executar a função dim em modern , verá que o número de linhas foi reduzido para 630 enquanto o número de colunas permanece o mesmo.
As linhas foram truncadas porque alguns dos registros vão além do ano 2000.
Também é possível filtrar linhas por vários campos em R. Você precisará usar as instruções AND e OR .
Por exemplo, vamos filtrar as equipes por área. Nesse caso, um novo objeto ohio é criado. Os critérios de filtro são que teamID deve incluir apenas Cleveland E Cincinnati.
Você precisa usar o sinal de igual duplo ( == ) para verificar a igualdade. Se você usar apenas um sinal de igual, o R o considerará como um operador de atribuição. Use o e comercial ( & ) para representar AND.
Para verificar, use a função dim . Você verá que o número de linhas é 0.
Isso significa que não há times em que ambos estejam baseados em Cleveland e Cincinnati.
Em seguida, vamos tentar o Cleveland OR Cincinnati. O operador OR é representado pelo operador pipe ( | ). Portanto, tudo o que você precisa fazer é substituir o e comercial pelo operador pipe e executá-lo. Em seguida, execute a função dim novamente.
Você verá que existem 251 linhas em vez de zero.
Agora, e se você esquecer de usar um sinal de igual duplo e usar apenas um? Aqui está o que acontece:
O RStudio mostrará uma mensagem de erro muito útil no Console, lembrando você de usar o sinal de igual duplo.
3. Agrupar por e resumir linhas em R
A função agrupar por ( ) permite agregar registros por colunas selecionadas e, com base nessa agregação, resumir outra coluna.
A função group by ( ) segue este algoritmo:
Como exemplo, vamos agrupar por teamID e atribuí-lo a um novo objeto. Nesse caso, o novo objeto é chamado teams_ID . Em seguida, imprima-o.
No console, você notará que a primeira linha diz que é um tibble .
Um tibble é uma melhoria ordenada em relação ao quadro de dados básico. É um recurso do pacote que aumenta e melhora o que está disponível imediatamente.
A segunda linha é Grupos . Portanto, os dados agora são agrupados pela coluna teamID.
E com isso, agora você pode usar a função resumir ( ) nesses grupos.
Observação: a função resumir pode ser com s ou z e dependerá do uso do inglês britânico ou americano.
Por exemplo, vamos resumir teams_ID e obter algumas estatísticas básicas de resumo. Vamos procurar a média, o mínimo e o máximo de vitórias de cada equipe. Lembre-se de destacar todo o código antes de escolher Executar .
Você pode então ver no console que um resumo das estatísticas de cada equipe é exibido. Isso é muito semelhante a uma tabela dinâmica em que você agrega e resume dados.
Quadros de dados em R: aprendendo os
níveis básicos de fatores em R: usando variáveis categóricas e ordinais
Adicionar, remover e renomear colunas em R usando dplyr
Conclusão
Para recapitular, duas operações em dplyr foram discutidas. Um tutorial anterior focado em operações de coluna. Enquanto isso, esta lição atual mostrou como executar operações de linha usando o pacote dplyr no RStudio. Especificamente, você aprendeu como organizar, filtrar e agrupar linhas em R.
A próxima coisa a aprender é como combinar essas duas operações. O uso de todas as funções que você aprendeu até agora o ajudará muito na criação de códigos em R. No entanto, uma técnica mais útil seria um pipeline. Isso ajudará tudo a fluir junto. Portanto, certifique-se de revisar os próximos tutoriais também.
O que é self em Python: exemplos do mundo real
Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.
Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.
Este tutorial abordará como usar a técnica Multi Threaded Dynamic Visuals para criar insights de visualizações de dados dinâmicos em seus relatórios.
Neste artigo, analisarei o contexto do filtro. O contexto do filtro é um dos principais tópicos sobre os quais qualquer usuário do LuckyTemplates deve aprender inicialmente.
Quero mostrar como o serviço online do LuckyTemplates Apps pode ajudar no gerenciamento de diferentes relatórios e insights gerados de várias fontes.
Aprenda a calcular suas alterações de margem de lucro usando técnicas como ramificação de medida e combinação de fórmulas DAX no LuckyTemplates.
Este tutorial discutirá sobre as ideias de materialização de caches de dados e como elas afetam o desempenho dos DAXs no fornecimento de resultados.
Se você ainda estiver usando o Excel até agora, este é o melhor momento para começar a usar o LuckyTemplates para suas necessidades de relatórios de negócios.
O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber