So speichern und laden Sie eine RDS-Datei in R
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
In der Datenanalyse sind Schlüsseleinflussfaktoren Variablen, die einen erheblichen Einfluss auf eine abhängige Variable haben. Mit anderen Worten: Sie sind die Faktoren, die am meisten zum Ergebnis des Interesses beitragen. In Python wird die lineare Regression verwendet, um wichtige Einflussfaktoren in einem Datensatz zu identifizieren und die Stärke und Richtung der Beziehung zwischen verschiedenen Variablen zu messen. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen .
Die Identifizierung wichtiger Einflussfaktoren kann hilfreich sein, um die zugrunde liegenden Beziehungen in einem Datensatz zu verstehen und Vorhersagen über zukünftige Ergebnisse zu treffen.
Python- Bibliotheken bieten eine Reihe von Tools und Funktionen zur Durchführung von Regressionsanalysen und zur Identifizierung wichtiger Einflussfaktoren in einem Datensatz.
Inhaltsverzeichnis
Verwendung eines linearen Regressionsmodells
In diesem Artikel werde ich zeigen, wie Sie ein lineares Regressionsmodell verwenden können, um einige der wichtigsten Einflussfaktoren von LuckyTemplates nachzuahmen. Unser Ziel ist es, alle unsere Variablen zu nutzen, um beschreiben zu können, was sich in einer anderen Variablen ändert.
Die wichtigsten Einflussfaktoren von LuckyTemplates sind ein lineares Regressionsmodell. Oft nutzen wir dies, obwohl wir nicht genau wissen, was sich unter der Haube verbirgt. In diesem Tutorial verwende ich dies, um die Faktoren zu identifizieren, die zu den Versicherungsgebühren beitragen.
Werfen wir einen Blick auf den Datensatz der Versicherungsgebühren. Ich möchte, dass dies durch Raucherstatus, Geschlecht, Region, Kinder, BMI und Alter erklärt wird.
Derzeit weisen die wichtigsten Influencer die einflussreichste Variable auf. Wenn der Raucher „Ja“ ist, liegt die durchschnittliche Gebühr um 23.615 Einheiten höher im Vergleich zu allen anderen Werten eines Rauchers.
Es ist ein tolles Bild, aber es liefert uns keine weiteren Variablen, die die Ladungen beeinflussen könnten.
Lassen Sie uns näher darauf eingehen, indem wir das Dropdown-Menü von „Erhöhen“ in „Verringern“ ändern .
Diesmal ist das Gegenteil der Fall. Wenn Sie kein Raucher sind, ist die durchschnittliche Gebühr 23.615 Einheiten niedriger als bei allen anderen Werten eines Rauchers.
Wie Sie sehen können, handelt es sich um ein lineares Regressionsmodell, das ich mit einigen Python-Codes erstellt und mit minimaler bedingter Formatierung an LuckyTemplates weitergeleitet habe .
In Bezug auf die Codierung haben wir die vollständige Kontrolle darüber, und Sie werden sehen, wie ich dies als Alternative oder Ergänzung zum Visual der wichtigsten Influencer erstellt habe.
Kommen wir zum Jupiter-Notizbuch. Zum besseren Verständnis möchte ich diese Teil für Teil erklären.
Verwendete Python-Bibliotheken
Im ersten Teil habe ich alle Bibliotheken geladen, die ich verwenden möchte. Falls Sie mit Bibliotheken nicht vertraut sind: Dabei handelt es sich um Sammlungen von Codes und Funktionen, die Entwickler für uns erstellt haben.
Ich habe Pandas als pd importiert , eine Datenmanipulationsbibliothek, und numpy als np, damit wir lineare Berechnungen und Bedingungen durchführen können.
Verwendete Modelle
Lassen Sie uns über die Modelle sprechen, die ich verwendet habe. Ich habe sklearn.linear_model mitgebracht , eine , und ein lineares Regressionsmodell verwendet. Für den Fall, dass wir es brauchen, habe ich auch sklearn.preprocessing import StandardScaler mitgebracht, mit dem wir unsere Daten skalieren können.
Ein anderes Modell, das ich verwende, heißt xgboost import XGBRegressor . Es handelt sich um ein Regressionsmodell mit einem Entscheidungsbaum und anderen hilfreichen Aspekten.
Darüber hinaus habe ich train_set_split verwendet , weil ich die Daten zwischen einem Trainingssatz und einem Lernsatz aufteilen möchte. Beim maschinellen Lernen benötigen wir eine Reihe von Trainingsdaten, damit der Algorithmus lernen kann, bevor er Vorhersagen trifft.
Ich habe auch „mean_squared_error“ eingebunden, um das Modell und die matplotlib.pyplot- Bibliothek zu bestimmen, falls wir einige visuelle Darstellungen erstellen möchten.
Wir verwenden vielleicht nicht alle davon, aber es könnte hilfreich sein, also habe ich sie alle eingefügt.
Verwendeter Datensatz
Werfen wir als Nächstes einen kurzen Blick auf den Datensatz. Ich habe die Funktion df = pd.read_csv verwendet , um den Versicherungsdatensatz einzubinden, und dann habe ich die Daten mithilfe von df1 = pd.get_dummies (df, drop_first = True) in Dummy-Variablen umgewandelt .
Dazu erstellen wir eine neue Zelle, indem wir Esc + B auf unserer Tastatur drücken und geben dann df.head ein, um die Daten auszuwerten.
Wir haben Alter, Geschlecht, BMI, Kinder, Raucher, Region und Gebühren, die wir als unsere abhängige Variable vorhersagen möchten. Dies sind die Daten, die unvorbereitet für maschinelles Lernen eingehen.
Beim maschinellen Lernen können wir keine kategorialen Variablen wie „weiblich“, „männlich“, „Südwesten“ und „Nordwesten“ verwenden. Wenn es sich um ein typisches Regressionsmodell handelt, müssen wir daher zunächst die kategorialen Variablen in numerische Eingaben übersetzen.
Dazu habe ich die Funktion pd.get_dummies verwendet und diese dann auch in eine numerische Spalte umgewandelt, indem ich df.head in df1.head geändert habe . Klicken wir auf die Schaltfläche „Ausführen“ , um zu zeigen, wie es aussieht.
Wir können jetzt diese neue Sammlung von Spalten wie „ sex_male “ , „smoker_yes“ , „ region_northwest “ usw. sehen. Der Algorithmus weiß automatisch, dass der Wert 1 „ Ja“ und der Wert 0 „Nein“ bedeutet.
Bemerkenswerterweise gibt es weder „sex_female“ noch „region_northeast“ , da wir das Modell nicht übermäßig komplizieren möchten. Wir haben diese mithilfe der Funktion „drop_first = True“ gelöscht .
Als nächstes habe ich die LinearRegression- Funktion eingefügt und im Variablenmodell gespeichert.
Ich habe auch X- und Y-Variablen erstellt, um unsere Y-Variablen vorherzusagen, und habe dann alle anderen Spalten für unsere Prädiktoren eingefügt, indem ich denselben Datensatz verwendet habe, den wir zuvor verwendet haben.
Für die X-Variable haben wir df1.drop („charges“, axis=1) verwendet , um Gebühren abzuwerfen. Andererseits benötigen wir Gebühren für die Y-Variable, deshalb geben wir df1['charges'] ein .
Mit den folgenden Funktionen habe ich Trainings- und Testsätze für X und Y erstellt, indem ich die Funktion train_test_split verwendet und sie an die Variablen X und Y übergeben habe.
Zusätzlich habe ich model.fit verwendet , um die Trainingsdaten an unser Modell anzupassen. Das bedeutet, dass das lineare Regressionsmodell die Trainingsdaten lernt.
Werfen wir dieses Mal einen Blick auf unsere Prädiktoren. Wir sehen dies anhand von Koeffizienten, da sie beschreiben, wie sich jedes einzelne dieser Merkmale oder Variablen auf die Gebühren auswirkt.
Es fällt auch auf, dass die Zahl des Koeffizienten für „smoker_yes“ sehr nahe beieinander liegt, wenn man sie mit der Zahl vergleicht, die wir für die wichtigsten Einflussfaktoren und in unserem Modell haben.
Um eine Tabelle mit den Merkmalen und Koeffizienten zu erstellen, habe ich pd.DataFrame verwendet , um die Koeffizienten in die Tabelle einzubringen und das Bild zu erstellen.
Verwendung verschiedener Modelle für das Visual der wichtigsten Einflussfaktoren
Es ist auch ratsam, verschiedene Modelle zu verwenden, um die wichtigsten Einflussfaktoren durch die Einbeziehung von XGB.Regressor zu gewinnen .
Wenn wir das Modell darstellen, handelt es sich lediglich um eine einfache lineare Regression. Aber als wir XGB.Regressor eingeführt haben, gab es viele Parameter, die wir zur Optimierung des Modells verwenden können.
Ich habe diese Funktionen auch repliziert, als ich den Datenrahmen unten erstellt habe. Diese Koeffizienten unterscheiden sich stark von dem, was wir bei der linearen Regression gesehen haben.
Mit dieser Tabelle sind die Zahlen genau. Wenn Sie beispielsweise Raucher sind, erhöhen sich Ihre Gebühren um 23.787 $. Wenn Sie ein Kind haben, erhöht sich der Betrag um 472 US-Dollar und so weiter.
Diese Influencer sind ebenfalls wichtig, weil sie das widerspiegeln, was wir in der linearen Regressionstabelle haben. Es ist etwas anders, aber sehr ähnlich, weil diese Influencer eins zusammenfassen. Das ist einfach eine andere Sichtweise auf die Influencer.
Testen der Genauigkeit der linearen Regressionsanalyse
Danach wollen wir die Genauigkeit unseres Modells sehen, weshalb wir y_pred = model.predict (X_test) verwendet haben . Es kam zu einer Vorhersage, dass es um 5885,7 daneben lag.
Dies ist lediglich ein Testdatensatz. Unabhängig davon, ob die Vorhersage gut oder schlecht ist, müssen wir sie noch bewerten. Wir werden das derzeit nicht tun, da wir uns nur auf unsere wichtigsten Einflussfaktoren konzentrieren.
Zurück zu LuckyTemplates. Ich zeige Ihnen, wie ich das ganz einfach formuliere. Dies ist eine separate Tabelle, in der Sie die Funktionen und Influencer sehen können.
Ich habe das gemacht, indem ich zu „Daten transformieren“ gegangen bin .
Dann habe ich meinen Datensatz dupliziert und konnte diese Tabelle erstellen. Wir können auch zu den Angewandten Schritten gehen, um den Python- Code anzuzeigen und die von uns verwendeten Variablen zu überprüfen.
Öffnen wir das Python-Skript , indem wir darauf doppelklicken.
Wir haben unsere Bibliotheken mitgebracht. Wir haben es in einen maschinell lernenden Vorverarbeitungsdatensatz umgewandelt, der nur aus Nullen und Einsen bestand.
Außerdem haben wir ein Regressionsmodell eingeführt, unsere X- und Y-Werte passend zu den Daten erstellt und die Tabelle dann als Ausgabe gespeichert. Das Modell ist gut genug, sodass ich kein Trainingstestset verwendet habe.
Eine andere Sache, die ich gemacht habe, ist, den Datensatz auf df umzustellen, weil es einfach einfacher zu schreiben ist. Der Datensatz ist die Variable für die Originaldaten.
Diese Tabelle habe ich als Ausgabe gespeichert, deshalb haben wir diese Koeffizienten.
Um dies visuell anzuzeigen, klicken Sie auf „Schließen und anwenden“ .
Wir haben jetzt ein Balkendiagramm . Ich habe auch bedingte Formatierung verwendet, um die positiven und negativen Aspekte anzuzeigen.
So installieren Sie DAX Studio und den Tabelleneditor in LuckyTemplates.
Konfigurieren Sie Abfrageeinstellungen in LuckyTemplates. DAX Studio
LuckyTemplates-Parameter über den Abfrageeditor
Abschluss
Zusammenfassend lässt sich sagen, dass das Verständnis der wichtigsten Einflussfaktoren und die Implementierung der linearen Regression in Python ein leistungsstarkes Werkzeug für die Datenanalyse und -vorhersage sein kann.
Durch die Identifizierung der Schlüsselfaktoren, die sich auf eine abhängige Variable auswirken, und die Verwendung der linearen Regression zur Modellierung ihrer Beziehungen können wir zukünftige Ergebnisse besser verstehen und vorhersagen .
Durch die Verwendung der leistungsstarken Python-Bibliotheken ist es einfach, lineare Regression zu implementieren und aussagekräftige Erkenntnisse aus Daten zu gewinnen.
Alles Gute,
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
Was ist Self in Python: Beispiele aus der Praxis
In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.
In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.
In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.
Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.
Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.
In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.
Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.
Was ist LuckyTemplates Gateway? Alles was du wissen musst