Lineare Regression in Python

Lineare Regression in Python

In der Datenanalyse sind Schlüsseleinflussfaktoren Variablen, die einen erheblichen Einfluss auf eine abhängige Variable haben. Mit anderen Worten: Sie sind die Faktoren, die am meisten zum Ergebnis des Interesses beitragen. In Python wird die lineare Regression verwendet, um wichtige Einflussfaktoren in einem Datensatz zu identifizieren und die Stärke und Richtung der Beziehung zwischen verschiedenen Variablen zu messen. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen .

Die Identifizierung wichtiger Einflussfaktoren kann hilfreich sein, um die zugrunde liegenden Beziehungen in einem Datensatz zu verstehen und Vorhersagen über zukünftige Ergebnisse zu treffen.

Python- Bibliotheken bieten eine Reihe von Tools und Funktionen zur Durchführung von Regressionsanalysen und zur Identifizierung wichtiger Einflussfaktoren in einem Datensatz.

Inhaltsverzeichnis

Verwendung eines linearen Regressionsmodells

In diesem Artikel werde ich zeigen, wie Sie ein lineares Regressionsmodell verwenden können, um einige der wichtigsten Einflussfaktoren von LuckyTemplates nachzuahmen. Unser Ziel ist es, alle unsere Variablen zu nutzen, um beschreiben zu können, was sich in einer anderen Variablen ändert.

Die wichtigsten Einflussfaktoren von LuckyTemplates sind ein lineares Regressionsmodell. Oft nutzen wir dies, obwohl wir nicht genau wissen, was sich unter der Haube verbirgt. In diesem Tutorial verwende ich dies, um die Faktoren zu identifizieren, die zu den Versicherungsgebühren beitragen.

Lineare Regression in Python

Werfen wir einen Blick auf den Datensatz der Versicherungsgebühren. Ich möchte, dass dies durch Raucherstatus, Geschlecht, Region, Kinder, BMI und Alter erklärt wird.

Lineare Regression in Python

Derzeit weisen die wichtigsten Influencer die einflussreichste Variable auf. Wenn der Raucher „Ja“ ist, liegt die durchschnittliche Gebühr um 23.615 Einheiten höher im Vergleich zu allen anderen Werten eines Rauchers.

Es ist ein tolles Bild, aber es liefert uns keine weiteren Variablen, die die Ladungen beeinflussen könnten.

Lineare Regression in Python

Lassen Sie uns näher darauf eingehen, indem wir das Dropdown-Menü von „Erhöhen“ in „Verringern“ ändern .

Diesmal ist das Gegenteil der Fall. Wenn Sie kein Raucher sind, ist die durchschnittliche Gebühr 23.615 Einheiten niedriger als bei allen anderen Werten eines Rauchers.

Lineare Regression in Python

Wie Sie sehen können, handelt es sich um ein lineares Regressionsmodell, das ich mit einigen Python-Codes erstellt und mit minimaler bedingter Formatierung an LuckyTemplates weitergeleitet habe .

In Bezug auf die Codierung haben wir die vollständige Kontrolle darüber, und Sie werden sehen, wie ich dies als Alternative oder Ergänzung zum Visual der wichtigsten Influencer erstellt habe.

Lineare Regression in Python

Kommen wir zum Jupiter-Notizbuch. Zum besseren Verständnis möchte ich diese Teil für Teil erklären.

Lineare Regression in Python

Verwendete Python-Bibliotheken

Im ersten Teil habe ich alle Bibliotheken geladen, die ich verwenden möchte. Falls Sie mit Bibliotheken nicht vertraut sind: Dabei handelt es sich um Sammlungen von Codes und Funktionen, die Entwickler für uns erstellt haben.

Ich habe Pandas als pd importiert , eine Datenmanipulationsbibliothek, und numpy als np, damit wir lineare Berechnungen und Bedingungen durchführen können.

Verwendete Modelle

Lassen Sie uns über die Modelle sprechen, die ich verwendet habe. Ich habe sklearn.linear_model mitgebracht , eine , und ein lineares Regressionsmodell verwendet. Für den Fall, dass wir es brauchen, habe ich auch sklearn.preprocessing import StandardScaler mitgebracht, mit dem wir unsere Daten skalieren können.

Ein anderes Modell, das ich verwende, heißt xgboost import XGBRegressor . Es handelt sich um ein Regressionsmodell mit einem Entscheidungsbaum und anderen hilfreichen Aspekten.

Darüber hinaus habe ich train_set_split verwendet , weil ich die Daten zwischen einem Trainingssatz und einem Lernsatz aufteilen möchte. Beim maschinellen Lernen benötigen wir eine Reihe von Trainingsdaten, damit der Algorithmus lernen kann, bevor er Vorhersagen trifft.

Ich habe auch „mean_squared_error“ eingebunden, um das Modell und die matplotlib.pyplot- Bibliothek zu bestimmen, falls wir einige visuelle Darstellungen erstellen möchten.

Wir verwenden vielleicht nicht alle davon, aber es könnte hilfreich sein, also habe ich sie alle eingefügt.

Lineare Regression in Python

Verwendeter Datensatz

Werfen wir als Nächstes einen kurzen Blick auf den Datensatz. Ich habe die Funktion df = pd.read_csv verwendet , um den Versicherungsdatensatz einzubinden, und dann habe ich die Daten mithilfe von df1 = pd.get_dummies (df, drop_first = True) in Dummy-Variablen umgewandelt .

Lineare Regression in Python

Dazu erstellen wir eine neue Zelle, indem wir Esc + B auf unserer Tastatur drücken und geben dann df.head ein, um die Daten auszuwerten.

Wir haben Alter, Geschlecht, BMI, Kinder, Raucher, Region und Gebühren, die wir als unsere abhängige Variable vorhersagen möchten. Dies sind die Daten, die unvorbereitet für maschinelles Lernen eingehen.

Beim maschinellen Lernen können wir keine kategorialen Variablen wie „weiblich“, „männlich“, „Südwesten“ und „Nordwesten“ verwenden. Wenn es sich um ein typisches Regressionsmodell handelt, müssen wir daher zunächst die kategorialen Variablen in numerische Eingaben übersetzen. 

Lineare Regression in Python

Dazu habe ich die Funktion pd.get_dummies verwendet und diese dann auch in eine numerische Spalte umgewandelt, indem ich df.head in df1.head geändert habe . Klicken wir auf die Schaltfläche „Ausführen“ , um zu zeigen, wie es aussieht.

Lineare Regression in Python

Wir können jetzt diese neue Sammlung von Spalten wie „ sex_male “ , „smoker_yes“ , „ region_northwest “ usw. sehen. Der Algorithmus weiß automatisch, dass der Wert 1 „ Ja“ und der Wert 0 „Nein“ bedeutet.

Bemerkenswerterweise gibt es weder „sex_female“ noch „region_northeast“ , da wir das Modell nicht übermäßig komplizieren möchten. Wir haben diese mithilfe der Funktion „drop_first = True“ gelöscht .

Als nächstes habe ich die LinearRegression- Funktion eingefügt und im Variablenmodell gespeichert. 

Ich habe auch X- und Y-Variablen erstellt, um unsere Y-Variablen vorherzusagen, und habe dann alle anderen Spalten für unsere Prädiktoren eingefügt, indem ich denselben Datensatz verwendet habe, den wir zuvor verwendet haben.

Lineare Regression in Python

Für die X-Variable haben wir df1.drop („charges“, axis=1) verwendet , um Gebühren abzuwerfen. Andererseits benötigen wir Gebühren für die Y-Variable, deshalb geben wir df1['charges'] ein .

Mit den folgenden Funktionen habe ich Trainings- und Testsätze für X und Y erstellt, indem ich die Funktion train_test_split verwendet und sie an die Variablen X und Y übergeben habe.

Zusätzlich habe ich model.fit verwendet , um die Trainingsdaten an unser Modell anzupassen. Das bedeutet, dass das lineare Regressionsmodell die Trainingsdaten lernt. 

Lineare Regression in Python

Werfen wir dieses Mal einen Blick auf unsere Prädiktoren. Wir sehen dies anhand von Koeffizienten, da sie beschreiben, wie sich jedes einzelne dieser Merkmale oder Variablen auf die Gebühren auswirkt.

Es fällt auch auf, dass die Zahl des Koeffizienten für „smoker_yes“ sehr nahe beieinander liegt, wenn man sie mit der Zahl vergleicht, die wir für die wichtigsten Einflussfaktoren und in unserem Modell haben. 

Um eine Tabelle mit den Merkmalen und Koeffizienten zu erstellen, habe ich pd.DataFrame verwendet , um die Koeffizienten in die Tabelle einzubringen und das Bild zu erstellen.

Lineare Regression in Python

Lineare Regression in Python

Verwendung verschiedener Modelle für das Visual der wichtigsten Einflussfaktoren

Es ist auch ratsam, verschiedene Modelle zu verwenden, um die wichtigsten Einflussfaktoren durch die Einbeziehung von XGB.Regressor zu gewinnen . 

Wenn wir das Modell darstellen, handelt es sich lediglich um eine einfache lineare Regression. Aber als wir XGB.Regressor eingeführt haben, gab es viele Parameter, die wir zur Optimierung des Modells verwenden können.

Lineare Regression in Python

Ich habe diese Funktionen auch repliziert, als ich den Datenrahmen unten erstellt habe. Diese Koeffizienten unterscheiden sich stark von dem, was wir bei der linearen Regression gesehen haben.

Lineare Regression in Python

Mit dieser Tabelle sind die Zahlen genau. Wenn Sie beispielsweise Raucher sind, erhöhen sich Ihre Gebühren um 23.787 $. Wenn Sie ein Kind haben, erhöht sich der Betrag um 472 US-Dollar und so weiter.

Lineare Regression in Python

Diese Influencer sind ebenfalls wichtig, weil sie das widerspiegeln, was wir in der linearen Regressionstabelle haben. Es ist etwas anders, aber sehr ähnlich, weil diese Influencer eins zusammenfassen. Das ist einfach eine andere Sichtweise auf die Influencer.

Lineare Regression in Python

Testen der Genauigkeit der linearen Regressionsanalyse

Danach wollen wir die Genauigkeit unseres Modells sehen, weshalb wir y_pred = model.predict (X_test) verwendet haben . Es kam zu einer Vorhersage, dass es um 5885,7 daneben lag. 

Dies ist lediglich ein Testdatensatz. Unabhängig davon, ob die Vorhersage gut oder schlecht ist, müssen wir sie noch bewerten. Wir werden das derzeit nicht tun, da wir uns nur auf unsere wichtigsten Einflussfaktoren konzentrieren. 

Lineare Regression in Python

Zurück zu LuckyTemplates. Ich zeige Ihnen, wie ich das ganz einfach formuliere. Dies ist eine separate Tabelle, in der Sie die Funktionen und Influencer sehen können. 

Lineare Regression in Python

Ich habe das gemacht, indem ich zu „Daten transformieren“ gegangen bin .

Lineare Regression in Python

Dann habe ich meinen Datensatz dupliziert und konnte diese Tabelle erstellen. Wir können auch zu den Angewandten Schritten gehen, um den Python- Code anzuzeigen und die von uns verwendeten Variablen zu überprüfen.

Lineare Regression in Python

Öffnen wir das Python-Skript , indem wir darauf doppelklicken. 

Lineare Regression in Python

Wir haben unsere Bibliotheken mitgebracht. Wir haben es in einen maschinell lernenden Vorverarbeitungsdatensatz umgewandelt, der nur aus Nullen und Einsen bestand. 

Außerdem haben wir ein Regressionsmodell eingeführt, unsere X- und Y-Werte passend zu den Daten erstellt und die Tabelle dann als Ausgabe gespeichert. Das Modell ist gut genug, sodass ich kein Trainingstestset verwendet habe.

Eine andere Sache, die ich gemacht habe, ist, den Datensatz auf df umzustellen, weil es einfach einfacher zu schreiben ist. Der Datensatz ist die Variable für die Originaldaten.

Diese Tabelle habe ich als Ausgabe gespeichert, deshalb haben wir diese Koeffizienten.

Lineare Regression in Python

Um dies visuell anzuzeigen, klicken Sie auf „Schließen und anwenden“ .

Lineare Regression in Python

Wir haben jetzt ein Balkendiagramm . Ich habe auch bedingte Formatierung verwendet, um die positiven und negativen Aspekte anzuzeigen.

Lineare Regression in Python


So installieren Sie DAX Studio und den Tabelleneditor in LuckyTemplates.
Konfigurieren Sie Abfrageeinstellungen in LuckyTemplates. DAX Studio
LuckyTemplates-Parameter über den Abfrageeditor

Abschluss

Zusammenfassend lässt sich sagen, dass das Verständnis der wichtigsten Einflussfaktoren und die Implementierung der linearen Regression in Python ein leistungsstarkes Werkzeug für die Datenanalyse und -vorhersage sein kann.

Durch die Identifizierung der Schlüsselfaktoren, die sich auf eine abhängige Variable auswirken, und die Verwendung der linearen Regression zur Modellierung ihrer Beziehungen können wir zukünftige Ergebnisse besser verstehen und vorhersagen .

Durch die Verwendung der leistungsstarken Python-Bibliotheken ist es einfach, lineare Regression zu implementieren und aussagekräftige Erkenntnisse aus Daten zu gewinnen.

Alles Gute,


So speichern und laden Sie eine RDS-Datei in R

So speichern und laden Sie eine RDS-Datei in R

Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.

Einführung in den Filterkontext in LuckyTemplates

Einführung in den Filterkontext in LuckyTemplates

In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.

Materialisierungsideen für Datencaches in DAX Studio

Materialisierungsideen für Datencaches in DAX Studio

In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.

Geschäftsberichte mit LuckyTemplates

Geschäftsberichte mit LuckyTemplates

Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst