Visualizando dados ausentes em RW/ GGMICE

Ao analisar os dados, queremos saber os próximos passos sobre como encontrar os valores ausentes porque a maioria das coisas na análise é determinada por diferentes fatores. Para ajudá-lo com isso, abordaremos a visualização de dados ausentes em R usando o pacote ggmice . Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog .

“O que eu faço sobre valores ausentes?” Essa é uma pergunta essencial a ser feita ao analisar dados. Todos esperamos que sejam fáceis de encontrar, pois são codificados como nulos ou NAs.

Vamos dar uma olhada em algumas regras gerais e nas próximas etapas. Aprenderemos como responder a perguntas como: quantos dados faltantes existem? Quão grande é o problema? Podemos encontrar algum padrão nos dados?

Existem várias maneiras de fazer isso, mas vamos usar a visualização de dados ausentes em R como o primeiro início exploratório.

Índice

Quando descartar e quando encontrar valores ausentes
Etapas na visualização de dados ausentes em R com GGMICE
Imputando os dados ausentes
Conclusão

Quando descartar e quando encontrar valores ausentes

Se não houver um padrão de como eles estão ausentes e estiver afetando menos de 5% das observações, seja na coluna ou no conjunto de dados, você poderá descartar esses valores ausentes.

No entanto, se for mais difundido e você puder encontrar alguns padrões significativos com base nas visualizações, talvez seja necessário fazer algo com esses dados.

Portanto, em vez de eliminá-los, podemos imputá-los porque provavelmente há uma história sobre por que esses valores estão ausentes no padrão como estão.

Visualizando dados ausentes em RW/ GGMICE

Nesta demonstração, usaremos um pacote que imputará os valores ausentes. Este é um novo pacote para visualizar dados ausentes em R e é chamado ggmice .

A ideia é encontrar o padrão e quantos valores ausentes existem, portanto, veremos o padrão de plotagem e, em seguida, a matriz preditora de plotagem .

MICE significa imputação multivariada por métodos encadeados . Não estamos entrando na mecânica, mas aprenderemos como esse algoritmo imputará nossos dados se o usarmos.

Outra coisa a saber sobre a visualização de dados ausentes em R usando ggmice é que ele realmente deve ser compatível com ggplot2 , portanto, podemos criar algumas visualizações na parte de trás do ggplot2 , o famoso pacote de visualização.

Visualizando dados ausentes em RW/ GGMICE

Etapas na visualização de dados ausentes em R com GGMICE

Vamos em frente e inicializar o RStudio . A primeira coisa que precisamos fazer é importar todos os pacotes que precisamos digitando nos conjuntos de dados library (ggmice) , library (tidyverse) que inclui ggplot2 e library (Ecdat) .

O pacote da biblioteca (Ecdat) tem muitos conjuntos de dados bons para praticar. É por isso que estamos usando e importando.

Visualizando dados ausentes em RW/ GGMICE

Um dos conjuntos de dados é help (MCAS) . Vamos executar a função de ajuda nisso.

Como podemos ver, isso é do Ecdat e é um conjunto de dados de pontuação de teste. Esta documentação de ajuda descreve cada uma das colunas e nos informa sobre sua origem.

Vamos usar isso para saber se há dados ausentes e que padrão eles formam, se houver algum.

Visualizando dados ausentes em RW/ GGMICE

Vamos usar is.na (MCAS) e clicar em Executar . Como podemos ver, há um monte de VERDADEIRO e FALSO. O que podemos fazer é resumir usando a função colSums (is.na(MCAS)) porque FALSE e TRUE são zero e um disfarçado. Esta é a nossa maneira de verificar se o valor está faltando ou não.

Visualizando dados ausentes em RW/ GGMICE

Conforme mostrado abaixo, os valores ausentes são encontrados em três colunas, como spc , totsc8 e avgsalary . Podemos ver a descrição dessas colunas na seção de documentação de ajuda.

Visualizando dados ausentes em RW/ GGMICE

Além disso, usando colSums (is.na(MCAS)) / nrow (MCAS), o número de linhas se transformará em porcentagens. Esta é uma maneira de olhar para isso, mas não a coisa mais fácil de fazer.

Visualizando dados ausentes em RW/ GGMICE

Nesse caso, vamos ver o que o ggmice pode fazer por nós. Usaremos a função BrowseVignettes (package = 'ggmice') e, em seguida, clique em Executar .

Visualizando dados ausentes em RW/ GGMICE

Existem algumas vinhetas encontradas para esta função, então vamos escolher ggmice e clicar no link HTML para ver alguns tutoriais úteis que podem ajudar.

Visualizando dados ausentes em RW/ GGMICE

Visualizando dados ausentes em RW/ GGMICE

Voltando ao script, vamos usar a função plot_pattern (MCAS) para passar o conjunto de dados.

Visualizando dados ausentes em RW/ GGMICE

Para visualizar melhor, clique no botão Zoom . Conforme ilustrado, de 155 observações, spc tem 9 valores ausentes, 25 para avgsalary e 40 para totsc8 .

Tentaremos descobrir se algum deles coincide, quantos existem e se eles tendem a estar agrupados.

Visualizando dados ausentes em RW/ GGMICE

Para verificar isso, podemos tentar o modo analógico usando a função de exibição (MCAS) e clicando em Executar .

Visualizando dados ausentes em RW/ GGMICE

Este é um tipo de visualizador de planilha onde podemos ver todos os valores ausentes. Também podemos expandir isso clicando no botão Editor de código-fonte .

Visualizando dados ausentes em RW/ GGMICE

Semelhante ao Power Query , podemos ver o total de entradas e os NAs são os valores ausentes. Notavelmente, o total de entradas na exibição (MCAS) é 220 e apenas 155 para plot_pattern (MCAS) porque provavelmente havia valores completos que não foram plotados per se.

Além disso, podemos ver que eles tendem a se agrupar com base nas variáveis e linhas. No entanto, em muitos casos, apenas um ou outro está faltando. A realidade é que é difícil fazer esse visual linha por linha, então é aqui que entra a visualização.

Visualizando dados ausentes em RW/ GGMICE

Imputando os dados ausentes

A próxima coisa a fazer é voltar ao nosso script, digitar nrow (MCAS) e sum(is.na(MCAS)$totsc8)) .

Nesse caso, sabemos que 40 são valores ausentes em 200 observações. Vamos usar o R como calculadora colocando 40/200. Portanto, temos cerca de 20% de valores ausentes, o que é muito.

Idealmente, queremos saber por que tantos estão desaparecidos. Talvez seja apenas como os dados foram coletados e é por isso que podemos imputar isso.

Visualizando dados ausentes em RW/ GGMICE

Para fazer isso, vamos importar o pacote library (mice) . Este é um dos métodos de imputação.

Visualizando dados ausentes em RW/ GGMICE

Então, vamos usar as funções MCAS_pred < –="" quickpred=""> e plot_pred(MCAS_pred) . Certifique-se de salvá-los, clique em Executar e clique no botão Zoom .

Visualizando dados ausentes em RW/ GGMICE

Se formos usar imputação multivariada, esse algoritmo encontrará observações e pontos de dados semelhantes aos que estão faltando e tentará preenchê-los.

Por exemplo, as colunas spc . Isso será útil para prever os valores ausentes com totsc8 e avgsalary . Neste ponto, não estamos fazendo isso, mas estamos vendo quais valores e variáveis estão relacionados que podem ser úteis para impedir esses valores.

Visualizando dados ausentes em RW/ GGMICE

Vamos tentar mais uma coisa. Vamos usar ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point() , então clique em Run .

Este é um gráfico de dispersão , exceto que estamos usando ggmice. Basicamente, a ideia é que possamos ver a relação entre essas duas variáveis que possuem alguns valores ausentes. Quando falta um deles e o outro está disponível, podemos ver onde estão esses pontos.

Nessa situação, ambos são observados em um desses casos. Um está faltando e o outro não. Se ambos estiverem faltando, não vai estar na trama.

Visualizando dados ausentes em RW/ GGMICE

Editar dados em R usando o pacote DataEditR
Práticas recomendadas de Power Query para seu modelo de dados
Como instalar pacotes R no LuckyTemplates

Conclusão

Quando trabalhamos com valores ausentes, é tentador usar um algoritmo como MICE porque é muito poderoso para imputar valores. No entanto, é melhor explorar os dados por conta própria e entender o que está acontecendo.

Idealmente, se tivermos muitos dados ausentes, queremos descobrir o motivo e talvez possamos tentar obter mais dados ou imputá-los. Ir direto à fonte é sempre preferível.

Se acabarmos querendo imputar os valores que faltam, podemos fazer alguns métodos de imputação simples com o pacote ordenação , como a média ou a mediana.

Sem dúvida, o pacote MICE é poderoso. Pode ser um exagero para coisas que são computacionalmente intensivas, mas estamos focados agora apenas no elemento de visualização dele.

Espero que você aprenda alguma coisa e fique à vontade para usar este pacote. Certifique-se de compartilhá-lo e tentar divulgar porque é um bom pacote para trabalhar com valores ausentes que são compatíveis com ggplot2.

Tudo de bom,

Jorge

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis e expressões dentro do editor do Power Query

Variáveis e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.