Regressione lineare in Python

Regressione lineare in Python

Nell'analisi dei dati, gli influencer chiave sono variabili che hanno un impatto significativo su una variabile dipendente. In altre parole, sono i fattori che contribuiscono maggiormente all'esito di interesse. In Python, la regressione lineare viene utilizzata per identificare gli influencer chiave in un set di dati e per misurare la forza e la direzione della relazione tra diverse variabili. Puoi guardare il video completo di questo tutorial in fondo a questo blog .

Identificare gli influencer chiave può essere utile per comprendere le relazioni sottostanti in un set di dati e per fare previsioni sui risultati futuri.

Le librerie Python forniscono una gamma di strumenti e funzioni per eseguire l'analisi di regressione e identificare gli influencer chiave in un set di dati.

Sommario

Utilizzo di un modello di regressione lineare

In questo articolo, mostrerò come utilizzare un modello di regressione lineare per imitare alcuni degli influencer chiave di LuckyTemplates. Il nostro obiettivo è utilizzare tutte le nostre variabili per poter descrivere cosa sta cambiando in un'altra variabile.

Gli influencer chiave di LuckyTemplates sono un modello di regressione lineare. Spesso lo usiamo anche se non sappiamo esattamente cosa c'è sotto il cofano. In questo tutorial, lo sto usando per identificare i fattori che contribuiscono alle spese assicurative.

Regressione lineare in Python

Diamo un'occhiata al set di dati delle spese di assicurazione. Voglio che questo sia spiegato dallo stato di fumatore, dal sesso, dalla regione, dai bambini, dal BMI e dall'età.

Regressione lineare in Python

Attualmente, i principali influencer mostrano la variabile più influente. Quando il fumatore è sì, l'addebito medio è superiore di $ 23.615 rispetto a tutti gli altri valori di un fumatore.

È un'ottima visuale, ma non ci fornisce altre variabili che possono influenzare le cariche.

Regressione lineare in Python

Analizziamolo in profondità modificando il menu a discesa da Aumenta a Diminuisci .

Questa volta è il contrario. Se non sei un fumatore, l'addebito medio è inferiore di $ 23.615 unità rispetto a tutti gli altri valori di un fumatore.

Regressione lineare in Python

Come puoi vedere, questo è un modello di regressione lineare che ho creato utilizzando alcuni codici Python e reindirizzato in LuckyTemplates con una formattazione condizionale minima .

In termini di codifica, abbiamo il controllo completo su di esso e vedrai come l'ho costruito come alternativa o complemento alla visuale degli influencer chiave.

Regressione lineare in Python

Passiamo al taccuino di Giove. Per una migliore comprensione, lascia che ti spieghi parte per parte.

Regressione lineare in Python

Librerie Python utilizzate

La prima parte è dove ho caricato tutte le librerie che voglio usare. Se non hai familiarità con le librerie, sono raccolte di codici e funzioni che gli sviluppatori hanno creato per noi.

Ho importato panda come pd che è una libreria per la manipolazione dei dati e numpy come np per consentirci di eseguire calcoli lineari e condizionali.

Modelli utilizzati

Parliamo dei modelli che ho usato. Ho introdotto sklearn.linear_model che è una e ho utilizzato un modello di regressione lineare. Nel caso ne avessimo bisogno, ho anche introdotto sklearn.preprocessing import StandardScaler che ci consentirà di ridimensionare i nostri dati.

Un altro modello che utilizzo si chiama xgboost import XGBRegressor . È un modello di regressione con un albero decisionale e altri aspetti utili.

Inoltre, ho utilizzato anche train_set_split perché voglio essere in grado di suddividere i dati tra un set di addestramento e un set di apprendimento. In Machine Learning, abbiamo bisogno di una serie di dati di addestramento affinché l'algoritmo apprenda prima che esegua qualsiasi previsione.

Ho anche inserito mean_squared_error per determinare il modello e la libreria matplotlib.pyplot nel caso in cui vogliamo fare alcuni elementi visivi.

Potremmo non usarli tutti, ma potrebbe essere utile, quindi li ho inseriti tutti.

Regressione lineare in Python

Set di dati utilizzato

Successivamente, diamo una rapida occhiata al set di dati. Ho utilizzato la funzione df = pd.read_csv per inserire il set di dati dell'assicurazione e quindi ho convertito i dati in variabili fittizie utilizzando df1 = pd.get_dummies (df, drop_first = True) .

Regressione lineare in Python

Per fare ciò, creiamo una nuova cella premendo Esc + B sulla nostra tastiera e quindi digitiamo df.head per valutare i dati.

Abbiamo l'età, il sesso, l'indice di massa corporea, i bambini, il fumatore, la regione e le spese che vogliamo prevedere come variabile dipendente. Questi sono i dati che arrivano impreparati per l'apprendimento automatico.

Nell'apprendimento automatico, non saremo in grado di utilizzare variabili categoriche come femmina, maschio, sud-ovest e nord-ovest. Quindi, la prima cosa che dobbiamo fare se si tratta di un tipico modello di regressione è tradurre le variabili categoriali in input numerico. 

Regressione lineare in Python

Per fare ciò, ho usato la funzione pd.get_dummies e poi l'ho cambiata in una colonna numerica cambiando df.head in df1.head . Facciamo clic sul pulsante Esegui per mostrare come appare.

Regressione lineare in Python

Ora possiamo vedere questa nuova raccolta di colonne come sex_male , smoker_yes , region_northwest e così via. L'algoritmo sa automaticamente che se è 1 significa sì e 0 significa no.

È evidente che non ci sono sex_female e region_northeast perché non vogliamo complicare eccessivamente il modello. Li abbiamo eliminati utilizzando la funzione drop_first = True .

La prossima cosa che ho fatto è stata inserire la funzione LinearRegression e salvarla sul modello variabile. 

Ho anche creato le variabili X e Y per prevedere le nostre variabili Y e poi ho inserito tutte le altre colonne per i nostri predittori utilizzando lo stesso set di dati che abbiamo usato in precedenza.

Regressione lineare in Python

Per la variabile X, abbiamo utilizzato df1.drop('charges', axis=1) per eliminare gli addebiti. D'altra parte, abbiamo bisogno di addebiti per la variabile Y, ecco perché inseriamo df1['charges'] .

Con le funzioni seguenti, ho creato set di addestramento e test sia per X che per Y utilizzando la funzione train_test_split e li ho passati nelle variabili X e Y.

Inoltre, ho utilizzato model.fit per adattare i dati di addestramento al nostro modello. Ciò significa che il modello di regressione lineare apprenderà i dati di addestramento. 

Regressione lineare in Python

Questa volta, diamo un'occhiata ai nostri predittori. Il modo in cui lo vediamo è attraverso i coefficienti perché descrivono come ciascuna di queste caratteristiche o variabili influenza le cariche.

È anche evidente che il numero di coefficienti per smoker_yes è molto vicino se lo si confronta con il numero di ciò che abbiamo per gli influencer chiave e nel nostro modello. 

Per creare una tabella in cui abbiamo le caratteristiche e i coefficienti, ho usato pd.DataFrame per inserire i coefficienti nella tabella e creare l'immagine.

Regressione lineare in Python

Regressione lineare in Python

Utilizzo di diversi modelli per la visualizzazione dei principali influencer

Si consiglia inoltre di utilizzare diversi modelli per ottenere gli influenzatori chiave inserendo XGB.Regressor

Quando rappresentiamo il modello, è solo una semplice regressione lineare; ma quando abbiamo inserito XGB.Regressor, ci sono molti parametri che possiamo usare per ottimizzare il modello.

Regressione lineare in Python

Ho anche replicato queste funzioni quando ho creato il frame di dati qui sotto. Questi coefficienti sono molto diversi rispetto a quanto visto nella regressione lineare.

Regressione lineare in Python

Con questa tabella, i numeri sono esatti. Ad esempio, se sei un fumatore, le tue spese aumenteranno di $ 23.787. Se hai un figlio, aumenterà di $ 472 e così via.

Regressione lineare in Python

Anche questi influencer sono importanti perché rispecchiano ciò che abbiamo sulla tabella di regressione lineare. È leggermente diverso ma molto vicino perché questi influencer riassumono in uno. Questo è solo un modo diverso di guardare agli influencer.

Regressione lineare in Python

Test dell'accuratezza dell'analisi di regressione lineare

Successivamente, vogliamo vedere l'accuratezza del nostro modello, motivo per cui abbiamo utilizzato y_pred = model.predict (X_test) . Ha escogitato una previsione che sarebbe stata disattivata entro 5885,7. 

Questo è solo un set di dati di prova e se la previsione è buona o cattiva, dobbiamo ancora valutarla. Non lo faremo in questo momento poiché ci stiamo concentrando solo sui nostri influenzatori chiave. 

Regressione lineare in Python

Tornando a LuckyTemplates, ti mostrerò come lo metto molto facilmente. Questa è una tabella separata in cui puoi vedere le caratteristiche e gli influencer. 

Regressione lineare in Python

L'ho fatto andando su Transform data .

Regressione lineare in Python

Quindi, ho duplicato il mio set di dati e sono riuscito a creare questa tabella. Possiamo anche andare ai passaggi applicati per vedere il codice Python e rivedere le variabili che abbiamo usato.

Regressione lineare in Python

Apriamo lo script Python facendo doppio clic su di esso. 

Regressione lineare in Python

Abbiamo portato le nostre biblioteche. L'abbiamo convertito in un set di dati di pre-elaborazione di apprendimento automatico composto solo da zero e uno. 

Inoltre, abbiamo introdotto un modello di regressione, creato X e Y per adattare i dati e quindi salvato la tabella come output. Il modello è abbastanza buono, quindi non ho utilizzato un set di test di addestramento.

Un'altra cosa che ho fatto è passare il set di dati a df perché è solo più facile da scrivere. Il set di dati è la variabile per i dati originali.

Con questa tabella, l'ho salvata come output, ecco perché abbiamo questi coefficienti.

Regressione lineare in Python

Per portarlo come oggetto visivo, fai clic su Chiudi e applica .

Regressione lineare in Python

Ora abbiamo un grafico a barre . Ho anche usato la formattazione condizionale per mostrare gli aspetti positivi e negativi.

Regressione lineare in Python


Come installare DAX Studio e l'editor tabulare in LuckyTemplates
Configurare le impostazioni di query in LuckyTemplates DAX Studio
Parametri di LuckyTemplates tramite l'editor di query

Conclusione

In conclusione, comprendere gli influencer chiave e implementare la regressione lineare in Python può essere un potente strumento per l'analisi e la previsione dei dati.

Identificando i fattori chiave che influiscono su una variabile dipendente e utilizzando la regressione lineare per modellare le loro relazioni, possiamo comprendere e prevedere meglio i risultati futuri .

Con l'uso delle potenti librerie di Python, è facile implementare la regressione lineare ed estrarre informazioni significative dai dati.

Ti auguro il meglio,


Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.

Introduzione al filtraggio del contesto in LuckyTemplates

Introduzione al filtraggio del contesto in LuckyTemplates

In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.

Idee di materializzazione per cache di dati in DAX Studio

Idee di materializzazione per cache di dati in DAX Studio

Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.

Reporting aziendale tramite LuckyTemplates

Reporting aziendale tramite LuckyTemplates

Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere