Gestion des erreurs dans Power Automate via le branchement parallèle
Découvrez l
Lors de l'analyse des données, nous voulons connaître les prochaines étapes pour trouver les valeurs manquantes, car la plupart des choses dans l'analyse sont déterminées par différents facteurs. Pour vous aider, nous aborderons la visualisation des données manquantes dans R à l'aide du package ggmice . Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog .
« Que dois-je faire des valeurs manquantes ? » C'est une question essentielle à poser lorsque vous analysez des données. Nous espérons tous qu'ils sont faciles à trouver car ils sont codés comme nuls ou NA.
Nous examinerons quelques règles générales et les prochaines étapes. Nous apprendrons comment répondre à des questions telles que combien de données manquantes y a-t-il ? Quelle est l'ampleur du problème ? Pouvons-nous trouver des modèles dans les données ?
Il existe de nombreuses façons de procéder, mais nous allons utiliser la visualisation des données manquantes dans R comme premier point de départ exploratoire.
Table des matières
Quand supprimer et quand trouver les valeurs manquantes
S'il n'y a pas de modèle dans la façon dont ils manquent et que cela affecte moins de 5 % des observations, que ce soit dans la colonne ou dans l'ensemble de données, vous pouvez supprimer ces valeurs manquantes.
Cependant, s'il s'avère que c'est plus répandu et que vous pouvez trouver des modèles significatifs basés sur les visualisations, vous devrez peut-être faire quelque chose avec ces données.
Ainsi, au lieu de les laisser tomber, nous pouvons les imputer car il y a probablement une histoire sur la raison pour laquelle ces valeurs manquent dans le modèle tel qu'il est.
Dans cette démo, nous utiliserons un package qui imputera les valeurs manquantes. Il s'agit d'un nouveau package pour visualiser les données manquantes dans R et il s'appelle ggmice .
L'idée est de trouver le modèle et le nombre de valeurs manquantes. Par conséquent, nous examinerons le modèle de tracé , puis la matrice de prédiction de tracé .
MICE signifie imputation multivariée par méthodes chaînées . Nous n'entrons pas dans la mécanique mais nous apprendrons comment cet algorithme va imputer nos données si nous l'utilisons.
Une autre chose à savoir sur la visualisation des données manquantes dans R à l'aide de ggmice est qu'il est vraiment censé être compatible avec ggplot2 , nous sommes donc en mesure de créer des visualisations à l'arrière de ggplot2 , le célèbre package de visualisation.
Étapes de la visualisation des données manquantes dans R avec GGMICE
Allons-y et démarrons RStudio . La première chose que nous devons faire est d'importer tous les packages dont nous avons besoin en tapant dans la bibliothèque (ggmice) , la bibliothèque (tidyverse) qui inclut les jeux de données ggplot2 et la bibliothèque (Ecdat) .
Le package de la bibliothèque (Ecdat) contient de nombreux ensembles de données sur lesquels s'entraîner. C'est pourquoi nous l'utilisons et l'importons.
L'un des ensembles de données est l'aide (MCAS) . Lançons la fonction d'aide à ce sujet.
Comme nous pouvons le voir, cela provient d'Ecdat, et c'est un ensemble de données de score de test. Cette documentation d'aide décrit chacune des colonnes et nous indique d'où elle vient.
Nous allons l'utiliser pour savoir s'il y a des données manquantes et quel modèle elles forment s'il y en a.
Utilisons is.na (MCAS) et cliquez sur Exécuter . Comme nous pouvons le voir, il y a un tas de VRAI et de FAUX. Ce que nous pouvons faire, c'est les additionner en utilisant la fonction colSums (is.na(MCAS)) car FALSE et TRUE sont zéro et un déguisés. C'est notre façon de vérifier si la valeur est manquante ou non.
Comme indiqué ci-dessous, les valeurs manquantes se trouvent dans trois colonnes telles que spc , totsc8 et avgsalary . Nous pouvons voir la description de ces colonnes dans la section documentation d'aide.
De plus, en utilisant colSums (is.na(MCAS)) / nrow (MCAS), le nombre de lignes se transformera en pourcentages. C'est une façon de voir les choses, mais ce n'est pas la chose la plus facile à faire.
Dans ce cas, regardons ce que ggmice peut faire pour nous. Nous allons utiliser la fonction browserVignettes (package = 'ggmice') , puis cliquer sur Run .
Certaines vignettes ont été trouvées pour cette fonction. Choisissons donc ggmice et cliquez sur le lien HTML pour voir des didacticiels utiles qui pourraient vous aider.
Pour en revenir au script, utilisons la fonction plot_pattern (MCAS) pour transmettre l'ensemble de données.
Pour mieux le visualiser, cliquez sur le bouton Zoom . Comme illustré, sur 155 observations, spc a 9 valeurs manquantes, 25 pour avgsalary et 40 pour totsc8 .
Nous essaierons de savoir si l'un d'entre eux coïncide, combien y en a-t-il et s'ils ont tendance à être dans un cluster.
Pour vérifier cela, nous pouvons essayer la méthode analogique en utilisant la fonction de vue (MCAS) puis en cliquant sur Exécuter .
C'est une sorte de visualiseur de feuille de calcul où nous pouvons voir toutes les valeurs manquantes. Nous pouvons également l'étendre en cliquant sur le bouton Éditeur de source .
Semblable à Power Query , nous pouvons voir le nombre total d'entrées et les NA sont les valeurs manquantes. Notamment, le nombre total d'entrées sur la vue (MCAS) est de 220, et seulement 155 pour le plot_pattern (MCAS) car il y avait probablement des valeurs complètes qui n'ont pas été tracées en soi.
De plus, nous pouvons voir qu'ils ont tendance à se regrouper en fonction des variables et des lignes. Cependant, dans de nombreux cas, il ne manque que l'un ou l'autre. La réalité est qu'il est difficile de faire ce visuel ligne par ligne, c'est donc là que la visualisation entre en jeu.
Imputation des données manquantes
La prochaine chose à faire est de revenir à notre script, puis de taper nrow (MCAS) puis sum(is.na(MCAS)$totsc8)) .
Dans ce cas, nous savons que 40 valeurs manquent sur 200 observations. Utilisons R comme calculatrice en mettant 40/200. Par conséquent, nous avons environ 20 % de valeurs manquantes, ce qui est beaucoup.
Idéalement, nous voulons savoir pourquoi il en manque tant. C'est peut-être juste la façon dont les données ont été collectées, c'est pourquoi nous pouvons imputer cela.
Pour ce faire, importons le package de bibliothèque (souris) . C'est l'une des méthodes d'imputation.
Ensuite, utilisons les fonctions MCAS_pred < –="" quickpred=""> et plot_pred(MCAS_pred) . Assurez-vous de les enregistrer, cliquez sur Exécuter, puis cliquez sur le bouton Zoom .
Si nous devons utiliser l'imputation multivariée, cet algorithme trouvera des observations et des points de données similaires à ceux qui manquent, puis essaiera de les remplir.
Par exemple, les colonnes spc . Ceux-ci seront utiles pour prédire les valeurs manquantes de la même manière avec totsc8 et avgsalary . À ce stade, nous ne le faisons pas, mais nous voyons quelles valeurs et variables sont liées qui pourraient être utiles pour entraver ces valeurs.
Essayons encore une chose. Nous allons utiliser ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , puis cliquer sur Run .
Il s'agit d'un nuage de points , sauf que nous utilisons ggmice. Fondamentalement, l'idée est que nous pouvons voir la relation entre ces deux variables qui ont pas mal de valeurs manquantes. Lorsque l'un d'entre eux manque et que l'autre est disponible, nous pouvons voir où se trouvent ces points.
Dans cette situation, les deux sont observés dans l'un de ces cas. L'un manque et l'autre pas. Si les deux manquent, ce ne sera pas sur l'intrigue.
Modifier des données dans R à l'aide du package DataEditR
Power Query Meilleures pratiques pour votre modèle de données
Comment installer des packages R dans LuckyTemplates
Conclusion
Lorsque nous travaillons avec des valeurs manquantes, il est tentant d'utiliser un algorithme comme MICE car il est très puissant pour imputer des valeurs. Cependant, il est préférable d'explorer les données par vous-même et de comprendre ce qui se passe.
Idéalement, si nous avons beaucoup de données manquantes, nous voulons comprendre pourquoi et peut-être pouvons-nous essayer d'obtenir plus de données ou nous pouvons les imputer. Aller directement à la source est toujours préférable.
Si nous finissons par vouloir imputer les valeurs manquantes, nous pouvons utiliser des méthodes d'imputation simples avec le package tidyverse telles que la moyenne ou la médiane.
Sans aucun doute, le package MICE est puissant. Cela peut être exagéré pour les choses qui nécessitent beaucoup de calculs, mais nous nous concentrons actuellement uniquement sur l'élément de visualisation.
J'espère que vous apprendrez quelque chose et que vous vous sentirez libre d'utiliser ce package. Assurez-vous de le partager et essayez de faire passer le mot car c'est un bon package pour travailler avec des valeurs manquantes compatibles avec ggplot2.
Tous mes vœux,
George
Découvrez l
Découvrez comment comparer facilement des tables dans Power Query pour signaler les différences et optimiser vos analyses de données.
Dans ce blog, vous découvrirez comment diviser les colonnes dans LuckyTemplates par délimiteurs à l'aide de DAX, une méthode efficace pour gérer des modèles de données complexes.
Découvrez comment récolter une valeur avec SELECTEDVALUE DAX pour des calculs dynamiques dans LuckyTemplates.
Calculez la marge en pourcentage à l
Dans ce didacticiel, nous allons explorer une méthode rapide pour convertir du texte en formats de date à l
Dans ce blog, vous apprendrez à enregistrer automatiquement la pièce jointe d
Découvrez comment adapter les cellules Excel au texte avec ces 4 solutions simples pour améliorer la présentation de vos données.
Dans ce didacticiel SSRS Report Builder, découvrez comment utiliser le générateur d
Découvrez les outils pour créer un thème de couleur efficace pour vos rapports LuckyTemplates et améliorer leur apparence.