Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Wenn Sie mit einem Datensatz arbeiten, der aus mehreren Variablen besteht, ist es am besten, zu verstehen, wie sich diese unterscheiden und miteinander interagieren. In diesem Tutorial werde ich zeigen, wie Sie die Seaborn-Funktion in Python verwenden können, um Alternativen zur Verteilung einer Variablen zu visualisieren. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen.

Inhaltsverzeichnis

Verwenden der Seaborn-Funktion in Python
Abschluss

Verwenden der Seaborn-Funktion in Python

Ich werde dies anhand des MPG-Datensatzes demonstrieren, der in Seaborn verfügbar ist. Machen wir also weiter und importieren alle benötigten Pakete sowie alle benötigten Daten. Wir werden uns hier die Verteilung der MPG-Variablen und ihre Unterschiede ansehen. Die beiden gebräuchlichsten Methoden hierfür sind das Histogramm und das Boxplot .

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Ich werde also die Displot- Funktion (DIS für die Verteilung) verwenden. Dann muss ich angeben, um welchen Datensatz es sich handelt und welche Variable wir auf die X-Achse setzen. Und damit haben wir die Verteilung.

Das ist ziemlich gut. Dadurch ist die gesamte Verteilung und die Form sehr gut zu erkennen. Allerdings weist diese Visualisierung der Verteilung einige Mängel auf. Einer davon ist, dass die Anzahl der von uns verwendeten Behälter wohl willkürlich ist. Die andere Sache ist, dass wir nicht unbedingt sofort wissen können, was der Mittelwert der Variablen ist.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Das Schöne an Seaborn ist, dass ich, sobald ich festgelegt habe, welche Variable ich wo haben möchte und welchen Datensatz ich verwende, ganz einfach eine neue Visualisierung erstellen kann. Jetzt kommen wir zum Boxplot. Boxplot verwendet keine Bins.

Die Idee hier ist, dass wir den Quartilwert wirklich deutlich sehen können, insbesondere den Median, und wir sehen die anderen Quartilwerte. Wir sehen, dass es einen Ausreißer gibt, und das ist eine sehr präzise Darstellung. Das Problem bei Boxplot ist, dass es präzise Dinge behandelt, die vielen Geschäftsanwendern im Allgemeinen wahrscheinlich egal sind.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Daher ist es für Nicht-Statistik-Leute etwas schwierig, aus dieser Handlung wirklich einen großen Nutzen zu ziehen. Und wieder werden die Daten aggregiert, sodass uns viele Details verloren gehen. Es ist schwer, genau zu wissen, wie das aussieht. Wir können sehen, dass es einen Ausreißer gibt. Wir können sehen, dass die meisten Werte hier vorhanden sind. Das Histogramm gibt uns eine intuitivere Möglichkeit, dies zu betrachten.

Das sind beides gute Plots. Beide haben ihren Zweck. Schauen wir uns einige Alternativen an, die Seaborn zur Visualisierung verwenden. Für die Verteilung dieser Variablen bleiben wir bei MPG.

Ähnlich wie beim Boxplot erkennt man hier, dass der Median deutlich markiert ist. Wir sehen auch den Quartilbereich und können uns einen besseren Überblick über die Gesamtverteilung verschaffen. Auch das ist so etwas wie ein Histogramm. Es wird als Kernel-Dichteschätzungsdiagramm oder KDE-Diagramm bezeichnet. Es ist eine glatte Version des Histogramms. Wir verwenden kein willkürliches Binning. Hier ist alles zu einem kontinuierlichen Bereich geglättet.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Dies ist eine Art Hybrid dieser beiden Ansätze und behebt tatsächlich einige der Mängel. Abhängig von Ihrem Publikum könnte es jedoch wirklich schwierig sein, sich das anzusehen. Sie sind vielleicht nicht daran gewöhnt, aber es hat einige Vorteile gegenüber den traditionellen Ansätzen.

Bei diesem Ansatz aggregieren wir die Daten nicht mehr. Jeder einzelne Punkt wird eingezeichnet. Dafür werden Elemente des Streudiagramms übernommen, oder? Wenn Sie über ein Streudiagramm nachdenken, zeichnen wir jeden einzelnen Punkt auf den X- und Y-Koordinaten auf.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Zuletzt haben wir noch den Stripplot . Wir nehmen hier diese Verteilung und streuen sie zufällig. Dies ist ein zufälliger Prozess. Wir versuchen nicht mehr, diese Verteilungsform zu erreichen. Das Problem dabei ist, dass all diese Klumpen ineinander übergehen, sodass das je nachdem, was Sie tun möchten, möglicherweise nicht gut ist. Vielleicht möchten Sie diese nach Gruppen oder ähnlichem einfärben, dafür gibt es eine Option.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Wir können den Jitter auf 0,25 ändern und sehen, dass diese Punkte mit zunehmendem Jitter etwas weiter verteilt werden.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Allerdings sehen sie jedes Mal, wenn ich sie ausführe, etwas anders aus. Wenn Sie das also loswerden und es jedes Mal gleich machen möchten, können Sie numpy als np importieren . Dies führt dazu, dass man einen zufälligen Startwert setzt.

Jedes Mal, wenn ich etwas ausführe, das mit Zufallszahlen zu tun hat, werden dieselben Zufallszahlen verwendet. Die Dinge ändern sich nicht zufällig, wenn Sie es erneut ausführen. Dies könnte für jede Art von Simulation nützlich sein, die Sie durchführen, was bei dieser Visualisierung auch in der Datenwissenschaft und -analyse häufig vorkommt. Jedes Mal, wenn ich diese Handlung durchführe, werden wir das gleiche Aussehen davon bekommen.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Ich kann hier auch Y-Ursprung hinzufügen, und jetzt sehen wir, dass wir eine bivariante Verteilung erstellen. Wir nehmen die Kilometerverteilung und segmentieren sie nach Herkunft.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

So verwenden Sie Python-Skripte in LuckyTemplates
Python-Skripte in LuckyTemplates-Datenberichten
Datensätze in Pandas mit ProfileReport() | Python in LuckyTemplates

Abschluss

Dies sind Alternativen zur Visualisierung von Verteilungen einer Variablen. Sie alle haben ihre Vor- und Nachteile. Das bedeutet nicht, dass Sie niemals den Boxplot oder das Histogramm verwenden sollten, sondern nur, dass es hier einige andere Optionen gibt, je nachdem, was Sie anzeigen möchten.

Sie sind alle genauso einfach zu erstellen wie alle anderen, wenn wir die Seaborn-Funktion in Python verwenden. Wenn Sie mehr über Python erfahren möchten , schauen Sie sich die folgenden Links an.

Alles Gute!

Einen Kommentar hinterlassen

Streudiagramm-Visualisierungen mit Charticulator

Streudiagramm-Visualisierungen mit Charticulator

In diesem Tutorial erfahren Sie, wie Sie mit Charticulator eine Streudiagramm-Visualisierung für Ihren LuckyTemplates-Bericht erstellen und entwerfen.

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

Erfahren Sie, wie Sie ein PowerApps-Suchfeld von Grund auf erstellen und es an das Gesamtthema Ihrer App anpassen.

Power Automate String-Funktionen: Substring und IndexOf

Power Automate String-Funktionen: Substring und IndexOf

Erlernen Sie ganz einfach zwei komplizierte Power Automate String-Funktionen, die in Microsoft Flows verwendet werden können – die Funktionen substring und indexOf.

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Dieses Tutorial konzentriert sich auf die Power Query M-Funktion „number.mod“, um ein abwechselndes 0-1-Muster in der Datumstabelle zu erstellen.

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

In diesem Tutorial führe ich eine Prognosetechnik durch, bei der ich meine tatsächlichen Ergebnisse mit meinen Prognosen vergleiche und sie kumulativ betrachte.

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

In diesem Blog erfahren Sie, wie Sie mit Power Automate E-Mail-Anhänge automatisch in SharePoint speichern und E-Mails anschließend löschen.

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Erfahren Sie, wie die Do Until Schleifensteuerung in Power Automate funktioniert und welche Schritte zur Implementierung erforderlich sind.

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

In diesem Tutorial erfahren Sie, wie Sie mithilfe der ALLSELECTED-Funktion einen dynamischen gleitenden Durchschnitt in LuckyTemplates berechnen können.

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Durch diesen Artikel erhalten wir ein klares und besseres Verständnis für die dynamische Berechnung einer laufenden oder kumulativen Gesamtsumme in LuckyTemplates.

Power Automate auf jede Aktion in Workflows anwenden

Power Automate auf jede Aktion in Workflows anwenden

Erfahren und verstehen Sie die Bedeutung und ordnungsgemäße Verwendung der Power Automate-Aktionssteuerung „Auf jede anwenden“ in unseren Microsoft-Workflows.