Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Wenn Sie mit einem Datensatz arbeiten, der aus mehreren Variablen besteht, ist es am besten, zu verstehen, wie sich diese unterscheiden und miteinander interagieren. In diesem Tutorial werde ich zeigen, wie Sie die Seaborn-Funktion in Python verwenden können, um Alternativen zur Verteilung einer Variablen zu visualisieren. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen.

Inhaltsverzeichnis

Verwenden der Seaborn-Funktion in Python

Ich werde dies anhand des MPG-Datensatzes demonstrieren, der in Seaborn verfügbar ist. Machen wir also weiter und importieren alle benötigten Pakete sowie alle benötigten Daten. Wir werden uns hier die Verteilung der MPG-Variablen und ihre Unterschiede ansehen. Die beiden gebräuchlichsten Methoden hierfür sind das Histogramm und das Boxplot .

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Ich werde also die Displot- Funktion (DIS für die Verteilung) verwenden. Dann muss ich angeben, um welchen Datensatz es sich handelt und welche Variable wir auf die X-Achse setzen. Und damit haben wir die Verteilung.

Das ist ziemlich gut. Dadurch ist die gesamte Verteilung und die Form sehr gut zu erkennen. Allerdings weist diese Visualisierung der Verteilung einige Mängel auf. Einer davon ist, dass die Anzahl der von uns verwendeten Behälter wohl willkürlich ist. Die andere Sache ist, dass wir nicht unbedingt sofort wissen können, was der Mittelwert der Variablen ist.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Das Schöne an Seaborn ist, dass ich, sobald ich festgelegt habe, welche Variable ich wo haben möchte und welchen Datensatz ich verwende, ganz einfach eine neue Visualisierung erstellen kann. Jetzt kommen wir zum Boxplot. Boxplot verwendet keine Bins.

Die Idee hier ist, dass wir den Quartilwert wirklich deutlich sehen können, insbesondere den Median, und wir sehen die anderen Quartilwerte. Wir sehen, dass es einen Ausreißer gibt, und das ist eine sehr präzise Darstellung. Das Problem bei Boxplot ist, dass es präzise Dinge behandelt, die vielen Geschäftsanwendern im Allgemeinen wahrscheinlich egal sind.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Daher ist es für Nicht-Statistik-Leute etwas schwierig, aus dieser Handlung wirklich einen großen Nutzen zu ziehen. Und wieder werden die Daten aggregiert, sodass uns viele Details verloren gehen. Es ist schwer, genau zu wissen, wie das aussieht. Wir können sehen, dass es einen Ausreißer gibt. Wir können sehen, dass die meisten Werte hier vorhanden sind. Das Histogramm gibt uns eine intuitivere Möglichkeit, dies zu betrachten.

Das sind beides gute Plots. Beide haben ihren Zweck. Schauen wir uns einige Alternativen an, die Seaborn zur Visualisierung verwenden. Für die Verteilung dieser Variablen bleiben wir bei MPG.

Ähnlich wie beim Boxplot erkennt man hier, dass der Median deutlich markiert ist. Wir sehen auch den Quartilbereich und können uns einen besseren Überblick über die Gesamtverteilung verschaffen. Auch das ist so etwas wie ein Histogramm. Es wird als Kernel-Dichteschätzungsdiagramm oder KDE-Diagramm bezeichnet. Es ist eine glatte Version des Histogramms. Wir verwenden kein willkürliches Binning. Hier ist alles zu einem kontinuierlichen Bereich geglättet.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Dies ist eine Art Hybrid dieser beiden Ansätze und behebt tatsächlich einige der Mängel. Abhängig von Ihrem Publikum könnte es jedoch wirklich schwierig sein, sich das anzusehen. Sie sind vielleicht nicht daran gewöhnt, aber es hat einige Vorteile gegenüber den traditionellen Ansätzen.

Bei diesem Ansatz aggregieren wir die Daten nicht mehr. Jeder einzelne Punkt wird eingezeichnet. Dafür werden Elemente des Streudiagramms übernommen, oder? Wenn Sie über ein Streudiagramm nachdenken, zeichnen wir jeden einzelnen Punkt auf den X- und Y-Koordinaten auf.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Zuletzt haben wir noch den Stripplot . Wir nehmen hier diese Verteilung und streuen sie zufällig. Dies ist ein zufälliger Prozess. Wir versuchen nicht mehr, diese Verteilungsform zu erreichen. Das Problem dabei ist, dass all diese Klumpen ineinander übergehen, sodass das je nachdem, was Sie tun möchten, möglicherweise nicht gut ist. Vielleicht möchten Sie diese nach Gruppen oder ähnlichem einfärben, dafür gibt es eine Option.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Wir können den Jitter auf 0,25 ändern und sehen, dass diese Punkte mit zunehmendem Jitter etwas weiter verteilt werden.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Allerdings sehen sie jedes Mal, wenn ich sie ausführe, etwas anders aus. Wenn Sie das also loswerden und es jedes Mal gleich machen möchten, können Sie numpy als np importieren . Dies führt dazu, dass man einen zufälligen Startwert setzt.

Jedes Mal, wenn ich etwas ausführe, das mit Zufallszahlen zu tun hat, werden dieselben Zufallszahlen verwendet. Die Dinge ändern sich nicht zufällig, wenn Sie es erneut ausführen. Dies könnte für jede Art von Simulation nützlich sein, die Sie durchführen, was bei dieser Visualisierung auch in der Datenwissenschaft und -analyse häufig vorkommt. Jedes Mal, wenn ich diese Handlung durchführe, werden wir das gleiche Aussehen davon bekommen.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen

Ich kann hier auch Y-Ursprung hinzufügen, und jetzt sehen wir, dass wir eine bivariante Verteilung erstellen. Wir nehmen die Kilometerverteilung und segmentieren sie nach Herkunft.

Seaborn-Funktion in Python zur Visualisierung der Verteilung einer Variablen


So verwenden Sie Python-Skripte in LuckyTemplates
Python-Skripte in LuckyTemplates-Datenberichten
Datensätze in Pandas mit ProfileReport() | Python in LuckyTemplates

Abschluss

Dies sind Alternativen zur Visualisierung von Verteilungen einer Variablen. Sie alle haben ihre Vor- und Nachteile. Das bedeutet nicht, dass Sie niemals den Boxplot oder das Histogramm verwenden sollten, sondern nur, dass es hier einige andere Optionen gibt, je nachdem, was Sie anzeigen möchten.

Sie sind alle genauso einfach zu erstellen wie alle anderen, wenn wir die Seaborn-Funktion in Python verwenden. Wenn Sie mehr über Python erfahren möchten , schauen Sie sich die folgenden Links an.

Alles Gute!


So speichern und laden Sie eine RDS-Datei in R

So speichern und laden Sie eine RDS-Datei in R

Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.

Einführung in den Filterkontext in LuckyTemplates

Einführung in den Filterkontext in LuckyTemplates

In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.

Materialisierungsideen für Datencaches in DAX Studio

Materialisierungsideen für Datencaches in DAX Studio

In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.

Geschäftsberichte mit LuckyTemplates

Geschäftsberichte mit LuckyTemplates

Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst