Colunas calculadas no SharePoint | Uma visão geral
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Ao analisar os dados, queremos saber os próximos passos sobre como encontrar os valores ausentes porque a maioria das coisas na análise é determinada por diferentes fatores. Para ajudá-lo com isso, abordaremos a visualização de dados ausentes em R usando o pacote ggmice . Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog .
“O que eu faço sobre valores ausentes?” Essa é uma pergunta essencial a ser feita ao analisar dados. Todos esperamos que sejam fáceis de encontrar, pois são codificados como nulos ou NAs.
Vamos dar uma olhada em algumas regras gerais e nas próximas etapas. Aprenderemos como responder a perguntas como: quantos dados faltantes existem? Quão grande é o problema? Podemos encontrar algum padrão nos dados?
Existem várias maneiras de fazer isso, mas vamos usar a visualização de dados ausentes em R como o primeiro início exploratório.
Índice
Quando descartar e quando encontrar valores ausentes
Se não houver um padrão de como eles estão ausentes e estiver afetando menos de 5% das observações, seja na coluna ou no conjunto de dados, você poderá descartar esses valores ausentes.
No entanto, se for mais difundido e você puder encontrar alguns padrões significativos com base nas visualizações, talvez seja necessário fazer algo com esses dados.
Portanto, em vez de eliminá-los, podemos imputá-los porque provavelmente há uma história sobre por que esses valores estão ausentes no padrão como estão.
Nesta demonstração, usaremos um pacote que imputará os valores ausentes. Este é um novo pacote para visualizar dados ausentes em R e é chamado ggmice .
A ideia é encontrar o padrão e quantos valores ausentes existem, portanto, veremos o padrão de plotagem e, em seguida, a matriz preditora de plotagem .
MICE significa imputação multivariada por métodos encadeados . Não estamos entrando na mecânica, mas aprenderemos como esse algoritmo imputará nossos dados se o usarmos.
Outra coisa a saber sobre a visualização de dados ausentes em R usando ggmice é que ele realmente deve ser compatível com ggplot2 , portanto, podemos criar algumas visualizações na parte de trás do ggplot2 , o famoso pacote de visualização.
Etapas na visualização de dados ausentes em R com GGMICE
Vamos em frente e inicializar o RStudio . A primeira coisa que precisamos fazer é importar todos os pacotes que precisamos digitando nos conjuntos de dados library (ggmice) , library (tidyverse) que inclui ggplot2 e library (Ecdat) .
O pacote da biblioteca (Ecdat) tem muitos conjuntos de dados bons para praticar. É por isso que estamos usando e importando.
Um dos conjuntos de dados é help (MCAS) . Vamos executar a função de ajuda nisso.
Como podemos ver, isso é do Ecdat e é um conjunto de dados de pontuação de teste. Esta documentação de ajuda descreve cada uma das colunas e nos informa sobre sua origem.
Vamos usar isso para saber se há dados ausentes e que padrão eles formam, se houver algum.
Vamos usar is.na (MCAS) e clicar em Executar . Como podemos ver, há um monte de VERDADEIRO e FALSO. O que podemos fazer é resumir usando a função colSums (is.na(MCAS)) porque FALSE e TRUE são zero e um disfarçado. Esta é a nossa maneira de verificar se o valor está faltando ou não.
Conforme mostrado abaixo, os valores ausentes são encontrados em três colunas, como spc , totsc8 e avgsalary . Podemos ver a descrição dessas colunas na seção de documentação de ajuda.
Além disso, usando colSums (is.na(MCAS)) / nrow (MCAS), o número de linhas se transformará em porcentagens. Esta é uma maneira de olhar para isso, mas não a coisa mais fácil de fazer.
Nesse caso, vamos ver o que o ggmice pode fazer por nós. Usaremos a função BrowseVignettes (package = 'ggmice') e, em seguida, clique em Executar .
Existem algumas vinhetas encontradas para esta função, então vamos escolher ggmice e clicar no link HTML para ver alguns tutoriais úteis que podem ajudar.
Voltando ao script, vamos usar a função plot_pattern (MCAS) para passar o conjunto de dados.
Para visualizar melhor, clique no botão Zoom . Conforme ilustrado, de 155 observações, spc tem 9 valores ausentes, 25 para avgsalary e 40 para totsc8 .
Tentaremos descobrir se algum deles coincide, quantos existem e se eles tendem a estar agrupados.
Para verificar isso, podemos tentar o modo analógico usando a função de exibição (MCAS) e clicando em Executar .
Este é um tipo de visualizador de planilha onde podemos ver todos os valores ausentes. Também podemos expandir isso clicando no botão Editor de código-fonte .
Semelhante ao Power Query , podemos ver o total de entradas e os NAs são os valores ausentes. Notavelmente, o total de entradas na exibição (MCAS) é 220 e apenas 155 para plot_pattern (MCAS) porque provavelmente havia valores completos que não foram plotados per se.
Além disso, podemos ver que eles tendem a se agrupar com base nas variáveis e linhas. No entanto, em muitos casos, apenas um ou outro está faltando. A realidade é que é difícil fazer esse visual linha por linha, então é aqui que entra a visualização.
Imputando os dados ausentes
A próxima coisa a fazer é voltar ao nosso script, digitar nrow (MCAS) e sum(is.na(MCAS)$totsc8)) .
Nesse caso, sabemos que 40 são valores ausentes em 200 observações. Vamos usar o R como calculadora colocando 40/200. Portanto, temos cerca de 20% de valores ausentes, o que é muito.
Idealmente, queremos saber por que tantos estão desaparecidos. Talvez seja apenas como os dados foram coletados e é por isso que podemos imputar isso.
Para fazer isso, vamos importar o pacote library (mice) . Este é um dos métodos de imputação.
Então, vamos usar as funções MCAS_pred < –="" quickpred=""> e plot_pred(MCAS_pred) . Certifique-se de salvá-los, clique em Executar e clique no botão Zoom .
Se formos usar imputação multivariada, esse algoritmo encontrará observações e pontos de dados semelhantes aos que estão faltando e tentará preenchê-los.
Por exemplo, as colunas spc . Isso será útil para prever os valores ausentes com totsc8 e avgsalary . Neste ponto, não estamos fazendo isso, mas estamos vendo quais valores e variáveis estão relacionados que podem ser úteis para impedir esses valores.
Vamos tentar mais uma coisa. Vamos usar ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point() , então clique em Run .
Este é um gráfico de dispersão , exceto que estamos usando ggmice. Basicamente, a ideia é que possamos ver a relação entre essas duas variáveis que possuem alguns valores ausentes. Quando falta um deles e o outro está disponível, podemos ver onde estão esses pontos.
Nessa situação, ambos são observados em um desses casos. Um está faltando e o outro não. Se ambos estiverem faltando, não vai estar na trama.
Editar dados em R usando o pacote DataEditR
Práticas recomendadas de Power Query para seu modelo de dados
Como instalar pacotes R no LuckyTemplates
Conclusão
Quando trabalhamos com valores ausentes, é tentador usar um algoritmo como MICE porque é muito poderoso para imputar valores. No entanto, é melhor explorar os dados por conta própria e entender o que está acontecendo.
Idealmente, se tivermos muitos dados ausentes, queremos descobrir o motivo e talvez possamos tentar obter mais dados ou imputá-los. Ir direto à fonte é sempre preferível.
Se acabarmos querendo imputar os valores que faltam, podemos fazer alguns métodos de imputação simples com o pacote ordenação , como a média ou a mediana.
Sem dúvida, o pacote MICE é poderoso. Pode ser um exagero para coisas que são computacionalmente intensivas, mas estamos focados agora apenas no elemento de visualização dele.
Espero que você aprenda alguma coisa e fique à vontade para usar este pacote. Certifique-se de compartilhá-lo e tentar divulgar porque é um bom pacote para trabalhar com valores ausentes que são compatíveis com ggplot2.
Tudo de bom,
Jorge
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates
Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.
Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.
Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.
Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.
Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.
O que é self em Python: exemplos do mundo real
Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.
Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.