Visualisierung fehlender Daten in RW/GGMICE

Visualisierung fehlender Daten in RW/GGMICE

Bei der Analyse von Daten möchten wir die nächsten Schritte zum Auffinden der fehlenden Werte kennen, da die meisten Dinge in der Analyse von verschiedenen Faktoren bestimmt werden. Um Ihnen dabei zu helfen, werden wir uns mit der Visualisierung fehlender Daten in R mithilfe des ggmice- Pakets befassen. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen .

„Was mache ich bei fehlenden Werten?“ Dies ist eine wichtige Frage, die Sie sich bei der Datenanalyse stellen sollten. Wir alle hoffen, dass sie leicht zu finden sind, da sie als Nullen oder NAs codiert sind.

Wir werfen einen Blick auf einige allgemeine Faustregeln und die nächsten Schritte. Wir lernen, wie wir Fragen wie „Wie viele fehlende Daten gibt es?“ beantworten können. Wie groß ist das Problem? Können wir Muster in den Daten finden?

Es gibt viele Möglichkeiten, dies zu tun, aber wir werden die Visualisierung fehlender Daten in R als ersten explorativen Start verwenden.

Inhaltsverzeichnis

Wann man Werte löschen und wann man fehlende Werte finden sollte

Wenn es kein Muster dafür gibt, wie sie fehlen, und es sich auf weniger als 5 % der Beobachtungen auswirkt, sei es in der Spalte oder im Datensatz, können Sie diese fehlenden Werte löschen.

Wenn sich jedoch herausstellt, dass es weiter verbreitet ist und Sie anhand der Visualisierungen einige signifikante Muster finden können, müssen Sie möglicherweise etwas mit diesen Daten unternehmen.

Anstatt sie wegzulassen, können wir sie also unterstellen, denn es gibt wahrscheinlich eine Geschichte darüber, warum diese Werte in dem Muster so, wie sie sind, fehlen.

Visualisierung fehlender Daten in RW/GGMICE

In dieser Demo verwenden wir ein Paket, das die fehlenden Werte imputiert. Dies ist ein neues Paket zur Visualisierung fehlender Daten in R und heißt ggmice .

Die Idee besteht darin, das Muster und die Anzahl der fehlenden Werte zu finden. Daher werden wir uns das Plotmuster und dann die Plot-Prädiktormatrix ansehen .

MICE steht für Multivariate Imputation durch verkettete Methoden . Wir gehen nicht auf die Mechanik ein, aber wir werden lernen, wie dieser Algorithmus unsere Daten unterstellt, wenn wir ihn verwenden.

Eine weitere Sache, die Sie über die Visualisierung fehlender Daten in R mit ggmice wissen sollten, ist, dass es eigentlich ggplot2-kompatibel sein soll , sodass wir einige Visualisierungen auf der Rückseite von ggplot2 , dem berühmten Visualisierungspaket,  erstellen können .

Visualisierung fehlender Daten in RW/GGMICE

Schritte zur Visualisierung fehlender Daten in R mit GGMICE

Lassen Sie uns fortfahren und RStudio starten . Als Erstes müssen wir alle Pakete importieren, die wir benötigen, indem wir die Datensätze „library“ (ggmice) , „library“ (tidyverse) , die ggplot2 enthält, und „ library“ (Ecdat) eingeben .

Das Bibliothekspaket (Ecdat) enthält viele gute Datensätze zum Üben. Deshalb verwenden und importieren wir es.

Visualisierung fehlender Daten in RW/GGMICE

Einer der Datensätze ist help (MCAS) . Lassen Sie uns hierzu die Hilfefunktion ausführen.

Wie wir sehen können, stammt dies von Ecdat und ist ein Testergebnisdatensatz. Diese Hilfedokumentation beschreibt jede der Spalten und teilt uns mit, woher sie stammt.

Wir werden dies nutzen, um herauszufinden, ob Daten fehlen und welches Muster sie gegebenenfalls bilden.

Visualisierung fehlender Daten in RW/GGMICE

Lassen Sie uns is.na (MCAS) verwenden und auf Ausführen klicken . Wie wir sehen können, gibt es eine Menge WAHR und FALSCH. Was wir tun können, ist, diese mithilfe der Funktion colSums (is.na(MCAS)) zusammenzufassen , da FALSE und TRUE verdeckt Null und Eins sind. Auf diese Weise überprüfen wir, ob der Wert fehlt oder nicht.

Visualisierung fehlender Daten in RW/GGMICE

Wie unten gezeigt, befinden sich die fehlenden Werte in drei Spalten wie „spc“ , „totsc8“ und „avgsalary“ . Die Beschreibung dieser Spalten finden Sie im Abschnitt zur Hilfedokumentation.

Visualisierung fehlender Daten in RW/GGMICE

Außerdem wird durch die Verwendung von colSums (is.na(MCAS)) / nrow (MCAS) die Anzahl der Zeilen in Prozentsätze umgewandelt. Dies ist eine Möglichkeit, es zu betrachten, aber nicht die einfachste.

Visualisierung fehlender Daten in RW/GGMICE

Schauen wir uns in diesem Fall an, was ggmice für uns tun kann. Wir verwenden die Funktion browseVignettes (package = 'ggmice') und klicken dann auf Ausführen .

Visualisierung fehlender Daten in RW/GGMICE

Für diese Funktion wurden einige Vignetten gefunden. Wählen wir also „ggmice“ aus und klicken Sie auf den HTML- Link, um einige hilfreiche Tutorials anzuzeigen, die hilfreich sein könnten.

Visualisierung fehlender Daten in RW/GGMICE

Visualisierung fehlender Daten in RW/GGMICE

Kehren wir zum Skript zurück und verwenden wir die Funktion plot_pattern (MCAS) , um den Datensatz zu übergeben.

Visualisierung fehlender Daten in RW/GGMICE

Um es besser zu visualisieren, klicken Sie auf die Schaltfläche „Zoom“ . Wie dargestellt, fehlen bei spc von 155 Beobachtungen 9 Werte, 25 für avgsalary und 40 für totsc8 .

Wir werden versuchen herauszufinden, ob einige davon zusammenfallen, wie viele es gibt und ob sie dazu neigen, in einem Cluster zu liegen.

Visualisierung fehlender Daten in RW/GGMICE

Um dies zu überprüfen, können wir den analogen Weg ausprobieren, indem wir die Ansichtsfunktion (MCAS) verwenden und dann auf Ausführen klicken .

Visualisierung fehlender Daten in RW/GGMICE

Dies ist eine Art Tabellenkalkulations-Viewer, in dem wir alle fehlenden Werte sehen können. Wir können dies auch erweitern, indem wir auf die Schaltfläche Quelleditor klicken .

Visualisierung fehlender Daten in RW/GGMICE

Ähnlich wie bei Power Query können wir die Gesamteinträge sehen und die NAs sind die fehlenden Werte. Bemerkenswert ist, dass die Gesamteinträge für die Ansicht (MCAS) 220 und für das Diagrammmuster (MCAS) nur 155 betragen, da es wahrscheinlich vollständige Werte gab, die nicht per se geplottet wurden.

Außerdem können wir sehen, dass sie basierend auf den Variablen und Zeilen dazu neigen, sich zu gruppieren. In vielen Fällen fehlt jedoch nur das eine oder andere. Die Realität ist, dass es schwierig ist, diese visuelle Darstellung Zeile für Zeile zu erstellen, daher kommt hier die Visualisierung ins Spiel.

Visualisierung fehlender Daten in RW/GGMICE

Anrechnung der fehlenden Daten

Als nächstes kehren Sie zu unserem Skript zurück und geben dann nrow (MCAS) und dann sum(is.na(MCAS)$totsc8)) ein .

In diesem Fall wissen wir, dass bei 40 von 200 Beobachtungen Werte fehlen. Lassen Sie uns R als Taschenrechner verwenden, indem wir 40/200 eingeben. Daher fehlen uns etwa 20 % der Werte, was sehr viel ist.

Im Idealfall wollen wir wissen, warum so viele fehlen. Vielleicht liegt es einfach an der Art und Weise, wie die Daten erfasst wurden, weshalb wir dies vermuten können.

Visualisierung fehlender Daten in RW/GGMICE

Dazu importieren wir das Bibliothekspaket (Mäuse) . Dies ist eine der Imputationsmethoden.

Visualisierung fehlender Daten in RW/GGMICE

Dann verwenden wir die Funktionen MCAS_pred < –="" quickpred=""> und plot_pred(MCAS_pred) . Stellen Sie sicher, dass Sie diese speichern, klicken Sie auf „Ausführen“ und dann auf die Schaltfläche „Zoom“ .

Visualisierung fehlender Daten in RW/GGMICE

Wenn wir multivariate Imputation verwenden, findet dieser Algorithmus Beobachtungen und Datenpunkte, die den fehlenden ähneln, und versucht dann, diese zu ergänzen.

Zum Beispiel die SPC- Spalten. Diese werden bei der Vorhersage der fehlenden Werte hilfreich sein, genau wie bei totsc8 und avgsalary . An diesem Punkt tun wir das noch nicht, aber wir sehen, welche Werte und Variablen miteinander in Beziehung stehen, die hilfreich sein könnten, um diese Werte zu verhindern.

Visualisierung fehlender Daten in RW/GGMICE

Versuchen wir noch etwas. Wir werden ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) verwenden und dann auf Ausführen klicken .

Dies ist ein Streudiagramm , außer dass wir ggMäuse verwenden. Im Grunde besteht die Idee darin, dass wir die Beziehung zwischen diesen beiden Variablen sehen können, bei denen einige Werte fehlen. Wenn einer davon fehlt und der andere verfügbar ist, können wir sehen, wo sich diese Punkte befinden.

In dieser Situation wird in einem dieser Fälle beides beobachtet. Einer fehlt und der andere nicht. Wenn beides fehlt, kommt es nicht in die Handlung.

Visualisierung fehlender Daten in RW/GGMICE


Bearbeiten Sie Daten in R mit dem DataEditR-Paket.
Best Practices für Power Query für Ihr Datenmodell.
So installieren Sie R-Pakete in LuckyTemplates

Abschluss

Wenn wir mit fehlenden Werten arbeiten, ist es verlockend, einen Algorithmus wie MICE zu verwenden, da dieser sehr leistungsfähig ist, Werte zu imputieren. Es ist jedoch besser, die Daten selbst zu untersuchen und zu verstehen, was vor sich geht.

Wenn uns viele Daten fehlen, möchten wir im Idealfall herausfinden, warum, und vielleicht können wir versuchen, weitere Daten zu erhalten, oder wir können sie unterstellen. Es ist immer vorzuziehen, direkt zur Quelle zu gehen.

Wenn wir am Ende die fehlenden Werte imputieren wollen, können wir mit dem Tidyverse-Paket einige einfache Imputationsmethoden anwenden, wie zum Beispiel den Mittelwert oder den Median.

Ohne Zweifel ist das MICE-Paket leistungsstark. Für Dinge, die sehr rechenintensiv sind, kann es übertrieben sein, aber wir konzentrieren uns derzeit nur auf das Visualisierungselement.

Ich hoffe, Sie lernen etwas und können dieses Paket gerne nutzen. Geben Sie es unbedingt weiter und versuchen Sie, es bekannt zu machen, denn es ist ein gutes Paket, um mit fehlenden Werten zu arbeiten, die mit ggplot2 kompatibel sind.

Alles Gute,

George


So speichern und laden Sie eine RDS-Datei in R

So speichern und laden Sie eine RDS-Datei in R

Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.

Einführung in den Filterkontext in LuckyTemplates

Einführung in den Filterkontext in LuckyTemplates

In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.

Materialisierungsideen für Datencaches in DAX Studio

Materialisierungsideen für Datencaches in DAX Studio

In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.

Geschäftsberichte mit LuckyTemplates

Geschäftsberichte mit LuckyTemplates

Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst