So speichern und laden Sie eine RDS-Datei in R
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
Im heutigen Blog werden wir den Prozess der Visualisierung der Python- Korrelation und den Import dieser Visuals in LuckyTemplates durchgehen . Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen.
Inhaltsverzeichnis
Zusammenhänge verstehen
Hier ist ein schönes Bild, das die verschiedenen Arten von Korrelationen zeigt.
Von links beginnend haben wir die perfekte positive Korrelation , was bedeutet, dass sie einen Korrelationswert von 1 hat. Dann folgen positive Korrelationen in absteigender Reihenfolge, die zu 0 führen.
Das mittlere Diagramm zeigt keine Korrelation, was auf einen Korrelationswert von 0 hindeutet.
Schließlich zeigt die rechte Seite ab 0 abnehmende negative Korrelationswerte. Das Diagramm ganz rechts zeigt die perfekte negative Korrelation mit einem Korrelationswert von -1.
Pakete für Python-Korrelation
Für dieses Tutorial verwenden wir vier Pakete. Unser erstes Paket ist Pandas , das zur Datenbearbeitung verwendet und als Variable pd gespeichert wird .
Zur Visualisierung verwenden wir Matplotlib , das zur einfacheren Verwendung dieser Funktionen als plt- Variable gespeichert wird. Seaborn , unsere statistische Visualisierungsbibliothek, wird als sns gespeichert . Und schließlich wird Numpy , das als np gespeichert werden soll , für die lineare Algebra verwendet.
Für die Daten verwenden wir einen Beispieldatensatz in Seaborn. Mithilfe der Variablen „sns“ fügen wir dann den Diamantendatensatz ein, wie unten gezeigt. .
Attribute der Daten
Wir können die Attribute unserer Daten mit der Funktion dataset.info anzeigen . Diese Funktion zeigt uns alle verschiedenen Datentypen, wie in der letzten Spalte unten zu sehen ist.
Beachten Sie, dass die Korrelation nur bei numerischen Variablen funktioniert. Daher werden wir uns die meiste Zeit mit numerischen Variablen befassen. Wir werden jedoch auch lernen, wie wir einige der kategorialen Variablen zur Visualisierung nutzen können.
Der Python-Korrelationsdatensatz
Durch die Verwendung des als dataset.head geschriebenen Funktionskopfs können wir die obersten fünf Zeilen unserer Daten abrufen, die so aussehen sollten.
In der ersten Spalte steht „ Karat“ , gefolgt von den kategorialen Variablen „ Schnitt “, „Farbe “ und „Klarheit “ sowie numerischen Werten für den Rest der Daten.
Python-Korrelation: Erstellen eines Streudiagramms
Wenn wir Korrelationen visualisieren und zwei Variablen betrachten, schauen wir uns normalerweise Streudiagramme an .
Daher haben wir mithilfe der Seaborn-Bibliothek unser Streudiagramm mithilfe der Streudiagrammfunktion erstellt, wobei wir die oben als data=dataset gespeicherten Daten übergeben haben . Dann identifizierten wir die X- und Y-Variablen – Karat bzw. Preis .
Hier ist unser Streudiagramm, das mit der Seaborn-Bibliothek erstellt wurde.
Sie können sehen, dass dieses Streudiagramm ziemlich dicht ist. Das liegt daran, dass wir etwa 54.000 Datenzeilen haben und die Punkte nicht unbedingt optimal dargestellt werden.
Wir können die Tasten Umschalt + Tab drücken, um die verschiedenen Möglichkeiten zum Gestalten des Streudiagramms anzuzeigen. Es zeigt uns eine Liste verschiedener Parameter, die wir unserem Streudiagramm hinzufügen können.
Wenn Sie weiter nach unten scrollen, erfahren Sie, was die einzelnen aufgeführten Parameter bewirken.
Zusätzliche Streudiagrammparameter
Lassen Sie uns ein wenig eintauchen. Wir können die Linienbreite auf 0 setzen , da die weißen Linien in unserem ersten Streudiagramm (siehe unten) die Dinge etwas verdecken.
Wir möchten auch den Alpha anpassen, damit wir die Deckkraft steuern können. Verwenden wir für unser Beispiel Alpha=0,2 . Aber natürlich könnten Sie das auch auf 0,1 ändern.
Wenn wir diese Parameter hinzufügen und auf Ausführen klicken , sehen Sie, dass unser Streudiagramm ohne die weißen Linien undurchsichtiger wird.
Sie können mit den Parametern herumspielen, um das beste Bild zu erhalten, das Sie suchen.
Verwendung der kategorialen Variablen
Wir können auch einige unserer kategorialen Variablen nutzen, um unsere visuelle Darstellung zu verbessern. Wir wissen zum Beispiel, dass unsere Daten für unseren Diamanten geeignet sind .
Was wir tun können, ist, diese Schnittkategorie mit dem Farbtonparameter als hue='cut' zu übergeben. Dadurch können wir diese Punkte durch Ändern der Farben visualisieren.
Natürlich können wir weitere Parameter wie zum Beispiel das Alpha hinzufügen. Wir können das noch einmal hinzufügen, auf 0,2 setzen und sehen, wie sich das Bild dadurch verändert. Klicken wir auf „Ausführen“ und Sie können einen kleinen Unterschied sehen.
Wir können mit den Parametern herumspielen, um das Bild zu erhalten, das wir suchen. Wir können auch verschiedene Kategorien wie Klarheit verwenden, wodurch wir die Klarheitskategorien erhalten und auch eine etwas andere Sicht auf diese Streuung erhalten.
Korrelation mit anderen Variablen
Möglicherweise interessiert Sie auch, wie andere Werte außer Preis und Karat miteinander korrelieren. Wenn wir uns also ein Streudiagramm für Tabelle ansehen , das die numerische Dimension dieser Raute und Tiefe darstellt, können wir sehen, dass es keine Eins-zu-Eins-lineare Beziehung gibt.
Wir können uns auch zwei weitere Variablen ansehen, z. B. Tiefe und Preis . Anhand der Grafik können wir erkennen, dass sich die Daten im mittleren Bereich konzentrieren.
Python-Korrelation: Erstellen eines Regressionsdiagramms
Kommen wir zu dem, was wir als Regressionsdiagramm bezeichnen und das es uns ermöglicht, die lineare Beziehung zwischen zwei Variablen auszuwerten.
Anstelle der Scatter-Plot-Funktion verwenden wir dieses Mal die Regplot- Funktion. Wir werden die gleiche Struktur übergeben – unsere Daten, dann die X- und Y-Variablen.
Das Ergebnis zeigt eine Linie, die den linearen Zusammenhang zwischen den Variablen misst. Es ist auch offensichtlich, wie unsere Werte um diese Regressionslinie kreisen.
Das Bild ist im Moment nicht besonders schön, aber wir können es noch optimieren, um ein besseres Bild zu erhalten. Beispielsweise können wir mithilfe der Matplotlib-Variablen einen Stil übergeben. Mit dem Code plt.style.use('dark_background') können wir den Stil in einen dunklen Hintergrund ändern .
Nehmen Sie dasselbe Regressionsdiagramm und geben Sie einige Schlüsselwörter für unsere Streuung und Linie ein. Für unsere Regressionsgerade verwenden wir die Farbe Rot und eine Linienstärke von 1. Dies wird als line_kws={„color“ : „red“, „linewidth“ : 1) geschrieben.
Für unsere Scatter-Schlüsselwörter legen wir die Farbe auf Weiß, die Kantenfarbe auf Grau und die Deckkraft auf 0,4 fest, um sie als Scatter_kws={„color“ : „white“, „edgecolor“ : „grey“, „alpha“ : 0.4 zu schreiben ).
Diese Parameter geben uns eine etwas andere Sichtweise, wie unten gezeigt.
Python-Korrelation: Erstellen einer Korrelationsmatrix
Bisher haben wir uns Streudiagramme mit nur zwei Variablen angesehen, aber vielleicht möchten wir auch alle Korrelationen unserer Variablen betrachten.
Dies wird mithilfe unseres Datensatzes mit einer Datenrahmenfunktion namens Korrelation durchgeführt, die als dataset.corr dargestellt wird. Und was wir erhalten, ist eine Matrix, die uns Korrelationen für jede dieser Variablen zeigt.
Die Zahlen in der obigen Tabelle stellen die Pearson-Korrelation dar , die sich auf die lineare Beziehung zwischen all diesen Variablen konzentriert.
Wenn wir jedoch nicht sicher sind, ob unsere Variablen vollständig linear korrelieren, können wir eine andere Art der Korrelation verwenden, die sich mehr auf die Wirkung als auf den linearen Teil konzentriert. Man spricht von einer Spearman-Korrelation .
Und wir können Informationen zu all diesen Dingen sehen, indem wir Umschalt + Tab drücken. Wenn Sie nach unten scrollen, können wir die Spearman-Rangkorrelation, den Pearson-Korrelationskoeffizienten und viele verschiedene Möglichkeiten zur Messung unserer Daten sehen.
Wenn wir auf unsere Korrelationsmatrix zurückblicken, wissen wir, dass Preis und Karat ziemlich gut korrelieren.
Sie stammen aus unserem Diagramm hier und zeigen, dass sie mit 0,92 ziemlich linear sind.
Wenn wir stattdessen die Spearman-Korrelation verwenden, wird die Auswirkung oder der Rang mit 0,96 etwas höher ausfallen.
Diese verschiedenen Arten von Korrelationen ermöglichen es uns, unterschiedliche Korrelationsattribute zwischen diesen Variablen zu erfassen.
Korrelation mehrerer x einzelner Variablen
Manchmal möchten wir keine Matrix sehen , weil uns die Korrelation aller Variablen mit einer einzigen Variablen (z. B. dem Preis) wichtiger ist.
Was wir dann tun können, ist, den Preis mithilfe von dataset.corr gefolgt von „price“ zu isolieren .
Nun können wir sehen, dass der Preis mit all unseren verschiedenen numerischen Variablen in dieser Tabelle korreliert. Und der Grund, warum wir dies tun möchten, sind visuelle Darstellungen.
Schauen wir uns also die Visualisierung unserer Korrelationsmatrix mit einer Heatmap an.
Python-Korrelation: Erstellen einer Heatmap
Mit der Funktion sns.heatmap können wir diese Korrelationsvariable an eine Seaborn- Heatmap übergeben .
Dadurch erhalten wir eine Heatmap, die so aussieht.
Auch hier können wir Parameter zu unseren Präferenzen hinzufügen. Wir können den Parameter linewidths=1 übergeben und mit annot=True Anmerkungen hinzufügen .
Und Sie können sehen, dass unsere Heatmap jetzt ganz anders aussieht. Im Moment haben wir eine ziemlich schöne Heatmap.
Wir erkennen den Nutzen des Hinzufügens von Zeilen und Anmerkungen. Wenn wir erneut Umschalt + Tab drücken, werden alle verschiedenen Parameter angezeigt, die darin enthalten sein können.
Versuchen Sie als Nächstes, method='spearman ' in unseren Code einzufügen , damit Sie wissen, wie Sie je nach Anwendungsfall eine andere Art von Korrelation verwenden.
Heatmap mit einer Variablen
Als nächstes isolieren wir eine Variable und erstellen eine Heatmap, wobei die Korrelation von negativ nach positiv geht.
Dadurch erhalten wir diese Heatmap unten.
Auch das Styling können wir durchaus ändern. Beispielsweise können wir den cmap- Parameter als cmap='coolwarm' verwenden . Dadurch werden die Farben kühl und warm und auch unser schwarzer Hintergrund wird entfernt.
Wenn wir auf „Ausführen“ klicken , erhalten wir diese Heatmap unten. Für kühl haben wir die blauen und für warm haben wir die roten Balken.
Wir können auch die Richtung ändern, um unsere Karte an der Farbleiste auszurichten. Dies geschieht durch Bearbeiten unseres Parameters sort_values und Hinzufügen aufsteigend=False .
Dies reicht von der höchsten Korrelation (roter Balken) bis zur am wenigsten Korrelation (blauer Balken).
Python-Korrelation: Erstellen eines Treppenhaus-Visuals
Eine erweiterte Möglichkeit, unsere Korrelation zu visualisieren, besteht darin, eine Maske zu verwenden, um alle bereits durchgeführten Korrelationen auszublenden.
Wir können dies mit Numpy tun, indem wir einige TRUE- und FALSE-Funktionen verwenden, um eine Treppe für unsere Korrelationen sichtbar zu machen.
So sollten die Ergebnisse aussehen.
Sehen wir uns an, wie wir dies in LuckyTemplates weiterleiten können.
Treppenvisualisierung in LuckyTemplates
Öffnen Sie zunächst LuckyTemplates. Ich habe einen Avocado-Datensatz eingefügt, damit wir ein anderes Bild sehen können. Sie können diesen Datensatz im Bereich „Felder“ sehen. Initialisieren Sie das Python- Visual, indem Sie im Bereich „Visualisierungen“ auf das Python-Symbol klicken.
Wir müssen den Datensatz erstellen, indem wir alle numerischen Variablen hinzufügen, die mit dem „ ?“ gekennzeichnet sind. . Fügen Sie sie hinzu, indem Sie auf die Kontrollkästchen neben diesen Variablen klicken.
Da wir nun einen Datensatz haben, können wir zu unserem Jupyter-Notizbuch gehen und diesen Code kopieren, den wir zuvor hatten.
Anschließend kopieren wir den Code in den Python-Skripteditor in LuckyTemplates.
Als Nächstes wählen wir unser Bildmaterial aus, nämlich das Treppenbild. Wir kehren zu Jupyter zurück und kopieren den Code, den wir für unser Treppenvisual verwendet haben.
Fügen Sie den Code in den Python-Skripteditor ein.
Als letztes müssen Sie sicherstellen, dass wir plt.show verwenden , was in Ihrem Python-Skript erforderlich ist. Fügen Sie plt.show in der letzten Zeile des Codes hinzu und klicken Sie auf das Ausführungssymbol in der oberen rechten Ecke des Skripteditors.
Für ein größeres Bild dehnen Sie das Feld etwas aus, damit wir das in der Ecke ausgeführte Skript sehen können. Wir haben unser Visual für unsere Heatmap, das ganz gut aussieht.
Und in LuckyTemplates können wir definitiv sehen, wie sich diese visuelle Darstellung je nach Datensatz ändern kann. Wir können beispielsweise im Bereich „Visualisierungen“ auf das Slicer- Symbol klicken und im Bereich „Felder“ zu „ Typ“ wechseln .
Dadurch erhalten wir die beiden Typen in unserem Datensatz, den konventionellen und den organischen . Wenn wir auf einen Typ klicken, beispielsweise „organisch“ , können Sie sehen, dass sich die Heatmap ändert.
Änderungen werden auch wirksam, wenn wir als nächstes auf den herkömmlichen Typ klicken .
Denken Sie daran, dass wir eine kategoriale Variable im Datensatz unseres Python- Skripts benötigen, damit diese Filter funktionieren. Wie wir sehen können, enthielt der von uns erstellte Datensatz den Typ , sodass wir das Bild auf diese Weise filtern konnten.
Aufbau Ihrer Datenmodellbeziehungen in der LuckyTemplates-
Textanalyse in Python | Eine Einführung in
die Python-Skripterstellung in LuckyTemplates-Datenberichten
Abschluss
In diesem Blog haben Sie gelernt, wie Sie Korrelationen in Python und LuckyTemplates mithilfe verschiedener Methoden wie der Pearson-Korrelation und der Spearman-Rangkorrelation visualisieren.
Jetzt können Sie Streudiagramme, Regressionsdiagramme, Korrelationsmatrix, Wärmekarten und Treppenvisualisierungen erstellen, um die beste Visualisierung für Ihren Datensatz zu erhalten. Sie können auch verschiedene Parameter verwenden, um den Stil und die Optik zu verbessern.
Alles Gute,
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
Was ist Self in Python: Beispiele aus der Praxis
In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.
In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.
In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.
Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.
Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.
In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.
Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.
Was ist LuckyTemplates Gateway? Alles was du wissen musst