Visualisierung fehlender Daten in RW/GGMICE

Visualisierung fehlender Daten in RW/GGMICE

Bei der Analyse von Daten möchten wir die nächsten Schritte zum Auffinden der fehlenden Werte kennen, da die meisten Dinge in der Analyse von verschiedenen Faktoren bestimmt werden. Um Ihnen dabei zu helfen, werden wir uns mit der Visualisierung fehlender Daten in R mithilfe des ggmice- Pakets befassen. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen .

„Was mache ich bei fehlenden Werten?“ Dies ist eine wichtige Frage, die Sie sich bei der Datenanalyse stellen sollten. Wir alle hoffen, dass sie leicht zu finden sind, da sie als Nullen oder NAs codiert sind.

Wir werfen einen Blick auf einige allgemeine Faustregeln und die nächsten Schritte. Wir lernen, wie wir Fragen wie „Wie viele fehlende Daten gibt es?“ beantworten können. Wie groß ist das Problem? Können wir Muster in den Daten finden?

Es gibt viele Möglichkeiten, dies zu tun, aber wir werden die Visualisierung fehlender Daten in R als ersten explorativen Start verwenden.

Inhaltsverzeichnis

Wann man Werte löschen und wann man fehlende Werte finden sollte

Wenn es kein Muster dafür gibt, wie sie fehlen, und es sich auf weniger als 5 % der Beobachtungen auswirkt, sei es in der Spalte oder im Datensatz, können Sie diese fehlenden Werte löschen.

Wenn sich jedoch herausstellt, dass es weiter verbreitet ist und Sie anhand der Visualisierungen einige signifikante Muster finden können, müssen Sie möglicherweise etwas mit diesen Daten unternehmen.

Anstatt sie wegzulassen, können wir sie also unterstellen, denn es gibt wahrscheinlich eine Geschichte darüber, warum diese Werte in dem Muster so, wie sie sind, fehlen.

Visualisierung fehlender Daten in RW/GGMICE

In dieser Demo verwenden wir ein Paket, das die fehlenden Werte imputiert. Dies ist ein neues Paket zur Visualisierung fehlender Daten in R und heißt ggmice .

Die Idee besteht darin, das Muster und die Anzahl der fehlenden Werte zu finden. Daher werden wir uns das Plotmuster und dann die Plot-Prädiktormatrix ansehen .

MICE steht für Multivariate Imputation durch verkettete Methoden . Wir gehen nicht auf die Mechanik ein, aber wir werden lernen, wie dieser Algorithmus unsere Daten unterstellt, wenn wir ihn verwenden.

Eine weitere Sache, die Sie über die Visualisierung fehlender Daten in R mit ggmice wissen sollten, ist, dass es eigentlich ggplot2-kompatibel sein soll , sodass wir einige Visualisierungen auf der Rückseite von ggplot2 , dem berühmten Visualisierungspaket,  erstellen können .

Visualisierung fehlender Daten in RW/GGMICE

Schritte zur Visualisierung fehlender Daten in R mit GGMICE

Lassen Sie uns fortfahren und RStudio starten . Als Erstes müssen wir alle Pakete importieren, die wir benötigen, indem wir die Datensätze „library“ (ggmice) , „library“ (tidyverse) , die ggplot2 enthält, und „ library“ (Ecdat) eingeben .

Das Bibliothekspaket (Ecdat) enthält viele gute Datensätze zum Üben. Deshalb verwenden und importieren wir es.

Visualisierung fehlender Daten in RW/GGMICE

Einer der Datensätze ist help (MCAS) . Lassen Sie uns hierzu die Hilfefunktion ausführen.

Wie wir sehen können, stammt dies von Ecdat und ist ein Testergebnisdatensatz. Diese Hilfedokumentation beschreibt jede der Spalten und teilt uns mit, woher sie stammt.

Wir werden dies nutzen, um herauszufinden, ob Daten fehlen und welches Muster sie gegebenenfalls bilden.

Visualisierung fehlender Daten in RW/GGMICE

Lassen Sie uns is.na (MCAS) verwenden und auf Ausführen klicken . Wie wir sehen können, gibt es eine Menge WAHR und FALSCH. Was wir tun können, ist, diese mithilfe der Funktion colSums (is.na(MCAS)) zusammenzufassen , da FALSE und TRUE verdeckt Null und Eins sind. Auf diese Weise überprüfen wir, ob der Wert fehlt oder nicht.

Visualisierung fehlender Daten in RW/GGMICE

Wie unten gezeigt, befinden sich die fehlenden Werte in drei Spalten wie „spc“ , „totsc8“ und „avgsalary“ . Die Beschreibung dieser Spalten finden Sie im Abschnitt zur Hilfedokumentation.

Visualisierung fehlender Daten in RW/GGMICE

Außerdem wird durch die Verwendung von colSums (is.na(MCAS)) / nrow (MCAS) die Anzahl der Zeilen in Prozentsätze umgewandelt. Dies ist eine Möglichkeit, es zu betrachten, aber nicht die einfachste.

Visualisierung fehlender Daten in RW/GGMICE

Schauen wir uns in diesem Fall an, was ggmice für uns tun kann. Wir verwenden die Funktion browseVignettes (package = 'ggmice') und klicken dann auf Ausführen .

Visualisierung fehlender Daten in RW/GGMICE

Für diese Funktion wurden einige Vignetten gefunden. Wählen wir also „ggmice“ aus und klicken Sie auf den HTML- Link, um einige hilfreiche Tutorials anzuzeigen, die hilfreich sein könnten.

Visualisierung fehlender Daten in RW/GGMICE

Visualisierung fehlender Daten in RW/GGMICE

Kehren wir zum Skript zurück und verwenden wir die Funktion plot_pattern (MCAS) , um den Datensatz zu übergeben.

Visualisierung fehlender Daten in RW/GGMICE

Um es besser zu visualisieren, klicken Sie auf die Schaltfläche „Zoom“ . Wie dargestellt, fehlen bei spc von 155 Beobachtungen 9 Werte, 25 für avgsalary und 40 für totsc8 .

Wir werden versuchen herauszufinden, ob einige davon zusammenfallen, wie viele es gibt und ob sie dazu neigen, in einem Cluster zu liegen.

Visualisierung fehlender Daten in RW/GGMICE

Um dies zu überprüfen, können wir den analogen Weg ausprobieren, indem wir die Ansichtsfunktion (MCAS) verwenden und dann auf Ausführen klicken .

Visualisierung fehlender Daten in RW/GGMICE

Dies ist eine Art Tabellenkalkulations-Viewer, in dem wir alle fehlenden Werte sehen können. Wir können dies auch erweitern, indem wir auf die Schaltfläche Quelleditor klicken .

Visualisierung fehlender Daten in RW/GGMICE

Ähnlich wie bei Power Query können wir die Gesamteinträge sehen und die NAs sind die fehlenden Werte. Bemerkenswert ist, dass die Gesamteinträge für die Ansicht (MCAS) 220 und für das Diagrammmuster (MCAS) nur 155 betragen, da es wahrscheinlich vollständige Werte gab, die nicht per se geplottet wurden.

Außerdem können wir sehen, dass sie basierend auf den Variablen und Zeilen dazu neigen, sich zu gruppieren. In vielen Fällen fehlt jedoch nur das eine oder andere. Die Realität ist, dass es schwierig ist, diese visuelle Darstellung Zeile für Zeile zu erstellen, daher kommt hier die Visualisierung ins Spiel.

Visualisierung fehlender Daten in RW/GGMICE

Anrechnung der fehlenden Daten

Als nächstes kehren Sie zu unserem Skript zurück und geben dann nrow (MCAS) und dann sum(is.na(MCAS)$totsc8)) ein .

In diesem Fall wissen wir, dass bei 40 von 200 Beobachtungen Werte fehlen. Lassen Sie uns R als Taschenrechner verwenden, indem wir 40/200 eingeben. Daher fehlen uns etwa 20 % der Werte, was sehr viel ist.

Im Idealfall wollen wir wissen, warum so viele fehlen. Vielleicht liegt es einfach an der Art und Weise, wie die Daten erfasst wurden, weshalb wir dies vermuten können.

Visualisierung fehlender Daten in RW/GGMICE

Dazu importieren wir das Bibliothekspaket (Mäuse) . Dies ist eine der Imputationsmethoden.

Visualisierung fehlender Daten in RW/GGMICE

Dann verwenden wir die Funktionen MCAS_pred < –="" quickpred=""> und plot_pred(MCAS_pred) . Stellen Sie sicher, dass Sie diese speichern, klicken Sie auf „Ausführen“ und dann auf die Schaltfläche „Zoom“ .

Visualisierung fehlender Daten in RW/GGMICE

Wenn wir multivariate Imputation verwenden, findet dieser Algorithmus Beobachtungen und Datenpunkte, die den fehlenden ähneln, und versucht dann, diese zu ergänzen.

Zum Beispiel die SPC- Spalten. Diese werden bei der Vorhersage der fehlenden Werte hilfreich sein, genau wie bei totsc8 und avgsalary . An diesem Punkt tun wir das noch nicht, aber wir sehen, welche Werte und Variablen miteinander in Beziehung stehen, die hilfreich sein könnten, um diese Werte zu verhindern.

Visualisierung fehlender Daten in RW/GGMICE

Versuchen wir noch etwas. Wir werden ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) verwenden und dann auf Ausführen klicken .

Dies ist ein Streudiagramm , außer dass wir ggMäuse verwenden. Im Grunde besteht die Idee darin, dass wir die Beziehung zwischen diesen beiden Variablen sehen können, bei denen einige Werte fehlen. Wenn einer davon fehlt und der andere verfügbar ist, können wir sehen, wo sich diese Punkte befinden.

In dieser Situation wird in einem dieser Fälle beides beobachtet. Einer fehlt und der andere nicht. Wenn beides fehlt, kommt es nicht in die Handlung.

Visualisierung fehlender Daten in RW/GGMICE


Bearbeiten Sie Daten in R mit dem DataEditR-Paket.
Best Practices für Power Query für Ihr Datenmodell.
So installieren Sie R-Pakete in LuckyTemplates

Abschluss

Wenn wir mit fehlenden Werten arbeiten, ist es verlockend, einen Algorithmus wie MICE zu verwenden, da dieser sehr leistungsfähig ist, Werte zu imputieren. Es ist jedoch besser, die Daten selbst zu untersuchen und zu verstehen, was vor sich geht.

Wenn uns viele Daten fehlen, möchten wir im Idealfall herausfinden, warum, und vielleicht können wir versuchen, weitere Daten zu erhalten, oder wir können sie unterstellen. Es ist immer vorzuziehen, direkt zur Quelle zu gehen.

Wenn wir am Ende die fehlenden Werte imputieren wollen, können wir mit dem Tidyverse-Paket einige einfache Imputationsmethoden anwenden, wie zum Beispiel den Mittelwert oder den Median.

Ohne Zweifel ist das MICE-Paket leistungsstark. Für Dinge, die sehr rechenintensiv sind, kann es übertrieben sein, aber wir konzentrieren uns derzeit nur auf das Visualisierungselement.

Ich hoffe, Sie lernen etwas und können dieses Paket gerne nutzen. Geben Sie es unbedingt weiter und versuchen Sie, es bekannt zu machen, denn es ist ein gutes Paket, um mit fehlenden Werten zu arbeiten, die mit ggplot2 kompatibel sind.

Alles Gute,

George


Streudiagramm-Visualisierungen mit Charticulator

Streudiagramm-Visualisierungen mit Charticulator

In diesem Tutorial erfahren Sie, wie Sie mit Charticulator eine Streudiagramm-Visualisierung für Ihren LuckyTemplates-Bericht erstellen und entwerfen.

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

Erfahren Sie, wie Sie ein PowerApps-Suchfeld von Grund auf erstellen und es an das Gesamtthema Ihrer App anpassen.

Power Automate String-Funktionen: Substring und IndexOf

Power Automate String-Funktionen: Substring und IndexOf

Erlernen Sie ganz einfach zwei komplizierte Power Automate String-Funktionen, die in Microsoft Flows verwendet werden können – die Funktionen substring und indexOf.

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Dieses Tutorial konzentriert sich auf die Power Query M-Funktion „number.mod“, um ein abwechselndes 0-1-Muster in der Datumstabelle zu erstellen.

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

In diesem Tutorial führe ich eine Prognosetechnik durch, bei der ich meine tatsächlichen Ergebnisse mit meinen Prognosen vergleiche und sie kumulativ betrachte.

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

In diesem Blog erfahren Sie, wie Sie mit Power Automate E-Mail-Anhänge automatisch in SharePoint speichern und E-Mails anschließend löschen.

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Erfahren Sie, wie die Do Until Schleifensteuerung in Power Automate funktioniert und welche Schritte zur Implementierung erforderlich sind.

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

In diesem Tutorial erfahren Sie, wie Sie mithilfe der ALLSELECTED-Funktion einen dynamischen gleitenden Durchschnitt in LuckyTemplates berechnen können.

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Durch diesen Artikel erhalten wir ein klares und besseres Verständnis für die dynamische Berechnung einer laufenden oder kumulativen Gesamtsumme in LuckyTemplates.

Power Automate auf jede Aktion in Workflows anwenden

Power Automate auf jede Aktion in Workflows anwenden

Erfahren und verstehen Sie die Bedeutung und ordnungsgemäße Verwendung der Power Automate-Aktionssteuerung „Auf jede anwenden“ in unseren Microsoft-Workflows.