Colunas calculadas no SharePoint | Uma visão geral
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Este tutorial é uma continuação da discussão sobre o pacote dplyr . Você aprenderá como organizar, filtrar e agrupar linhas em R.
A lição anterior foi sobre operações de coluna. Desta vez, o foco estará nas operações de linha em dplyr .
Abordaremos o básico, que inclui classificar e filtrar um conjunto de dados e agregar e resumir registros . Para ter uma visão geral do que esperar desta lição, pense em uma tabela dinâmica no MS Excel.
Índice
Começando
Abra um novo script R no RStudio.
Semelhante à lição de operações de coluna, esta demonstração usará o pacote de conjunto de dados Lahman . Faça o download fazendo uma rápida pesquisa no Google.
Para trazer o pacote Lahman para o R, execute library (Lahman) . Para habilitar o pacote dplyr , execute library (tidyverse) . Além disso, lembre-se de que uma prática recomendada para convenções de nomenclatura em R é usar letras minúsculas, portanto, atribua Teams em teams .
Funções básicas para operações de linha
1. Organize as linhas em R
A primeira operação de linha em dpylr é arranje ( ) . Esta função permite reordenar as linhas. Ele funciona organizando primeiro o quadro de dados df e depois os campos fornecidos.
Por exemplo, vamos classificar por teamID . Execute o arranjo (equipes, teamID) .
Se você quiser que eles sejam organizados em ordem decrescente, você precisa usar a função desc ( ) .
Por exemplo, se você quiser classificar por ano em ordem decrescente, execute organize (teams, desc(yearID)) .
Ao fazer isso, você não está atribuindo a saída de volta às equipes . Você está apenas vendo o resultado no Console.
Também é possível classificar por vários critérios. Por exemplo, se você deseja classificar por teamID e depois yearID em ordem decrescente, basta executar este código:
Ao classificar linhas, você não altera os dados. Os dados estão apenas sendo movidos. Nada está sendo adicionado ou removido.
2. Filtrar linhas em R
A função filtro ( ) adiciona ou remove dados dependendo dos critérios selecionados. Seu código básico é:
Como exemplo, vamos pegar todos os dados onde o yearID é maior ou igual a 2000. Siga o formato da função de filtro e insira as informações necessárias. Em seguida, execute-o. Não se esqueça de atribuir isso a um novo objeto. Nesse caso, foi atribuído ao arquivo .
Para verificar se as linhas foram realmente filtradas, você pode usar a função dim ( ) . Ele fornece o número de linhas e colunas no quadro de dados.
Se você executar dim (teams) , verá que o quadro de dados tem 2.955 linhas e 48 colunas.
Se você executar a função dim em modern , verá que o número de linhas foi reduzido para 630 enquanto o número de colunas permanece o mesmo.
As linhas foram truncadas porque alguns dos registros vão além do ano 2000.
Também é possível filtrar linhas por vários campos em R. Você precisará usar as instruções AND e OR .
Por exemplo, vamos filtrar as equipes por área. Nesse caso, um novo objeto ohio é criado. Os critérios de filtro são que teamID deve incluir apenas Cleveland E Cincinnati.
Você precisa usar o sinal de igual duplo ( == ) para verificar a igualdade. Se você usar apenas um sinal de igual, o R o considerará como um operador de atribuição. Use o e comercial ( & ) para representar AND.
Para verificar, use a função dim . Você verá que o número de linhas é 0.
Isso significa que não há times em que ambos estejam baseados em Cleveland e Cincinnati.
Em seguida, vamos tentar o Cleveland OR Cincinnati. O operador OR é representado pelo operador pipe ( | ). Portanto, tudo o que você precisa fazer é substituir o e comercial pelo operador pipe e executá-lo. Em seguida, execute a função dim novamente.
Você verá que existem 251 linhas em vez de zero.
Agora, e se você esquecer de usar um sinal de igual duplo e usar apenas um? Aqui está o que acontece:
O RStudio mostrará uma mensagem de erro muito útil no Console, lembrando você de usar o sinal de igual duplo.
3. Agrupar por e resumir linhas em R
A função agrupar por ( ) permite agregar registros por colunas selecionadas e, com base nessa agregação, resumir outra coluna.
A função group by ( ) segue este algoritmo:
Como exemplo, vamos agrupar por teamID e atribuí-lo a um novo objeto. Nesse caso, o novo objeto é chamado teams_ID . Em seguida, imprima-o.
No console, você notará que a primeira linha diz que é um tibble .
Um tibble é uma melhoria ordenada em relação ao quadro de dados básico. É um recurso do pacote que aumenta e melhora o que está disponível imediatamente.
A segunda linha é Grupos . Portanto, os dados agora são agrupados pela coluna teamID.
E com isso, agora você pode usar a função resumir ( ) nesses grupos.
Observação: a função resumir pode ser com s ou z e dependerá do uso do inglês britânico ou americano.
Por exemplo, vamos resumir teams_ID e obter algumas estatísticas básicas de resumo. Vamos procurar a média, o mínimo e o máximo de vitórias de cada equipe. Lembre-se de destacar todo o código antes de escolher Executar .
Você pode então ver no console que um resumo das estatísticas de cada equipe é exibido. Isso é muito semelhante a uma tabela dinâmica em que você agrega e resume dados.
Quadros de dados em R: aprendendo os
níveis básicos de fatores em R: usando variáveis categóricas e ordinais
Adicionar, remover e renomear colunas em R usando dplyr
Conclusão
Para recapitular, duas operações em dplyr foram discutidas. Um tutorial anterior focado em operações de coluna. Enquanto isso, esta lição atual mostrou como executar operações de linha usando o pacote dplyr no RStudio. Especificamente, você aprendeu como organizar, filtrar e agrupar linhas em R.
A próxima coisa a aprender é como combinar essas duas operações. O uso de todas as funções que você aprendeu até agora o ajudará muito na criação de códigos em R. No entanto, uma técnica mais útil seria um pipeline. Isso ajudará tudo a fluir junto. Portanto, certifique-se de revisar os próximos tutoriais também.
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates
Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.
Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.
Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.
Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.
Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.
O que é self em Python: exemplos do mundo real
Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.
Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.