Cosè il sé in Python: esempi del mondo reale
Cos'è il sé in Python: esempi del mondo reale
Nell'analisi dei dati, gli influencer chiave sono variabili che hanno un impatto significativo su una variabile dipendente. In altre parole, sono i fattori che contribuiscono maggiormente all'esito di interesse. In Python, la regressione lineare viene utilizzata per identificare gli influencer chiave in un set di dati e per misurare la forza e la direzione della relazione tra diverse variabili. Puoi guardare il video completo di questo tutorial in fondo a questo blog .
Identificare gli influencer chiave può essere utile per comprendere le relazioni sottostanti in un set di dati e per fare previsioni sui risultati futuri.
Le librerie Python forniscono una gamma di strumenti e funzioni per eseguire l'analisi di regressione e identificare gli influencer chiave in un set di dati.
Sommario
Utilizzo di un modello di regressione lineare
In questo articolo, mostrerò come utilizzare un modello di regressione lineare per imitare alcuni degli influencer chiave di LuckyTemplates. Il nostro obiettivo è utilizzare tutte le nostre variabili per poter descrivere cosa sta cambiando in un'altra variabile.
Gli influencer chiave di LuckyTemplates sono un modello di regressione lineare. Spesso lo usiamo anche se non sappiamo esattamente cosa c'è sotto il cofano. In questo tutorial, lo sto usando per identificare i fattori che contribuiscono alle spese assicurative.
Diamo un'occhiata al set di dati delle spese di assicurazione. Voglio che questo sia spiegato dallo stato di fumatore, dal sesso, dalla regione, dai bambini, dal BMI e dall'età.
Attualmente, i principali influencer mostrano la variabile più influente. Quando il fumatore è sì, l'addebito medio è superiore di $ 23.615 rispetto a tutti gli altri valori di un fumatore.
È un'ottima visuale, ma non ci fornisce altre variabili che possono influenzare le cariche.
Analizziamolo in profondità modificando il menu a discesa da Aumenta a Diminuisci .
Questa volta è il contrario. Se non sei un fumatore, l'addebito medio è inferiore di $ 23.615 unità rispetto a tutti gli altri valori di un fumatore.
Come puoi vedere, questo è un modello di regressione lineare che ho creato utilizzando alcuni codici Python e reindirizzato in LuckyTemplates con una formattazione condizionale minima .
In termini di codifica, abbiamo il controllo completo su di esso e vedrai come l'ho costruito come alternativa o complemento alla visuale degli influencer chiave.
Passiamo al taccuino di Giove. Per una migliore comprensione, lascia che ti spieghi parte per parte.
Librerie Python utilizzate
La prima parte è dove ho caricato tutte le librerie che voglio usare. Se non hai familiarità con le librerie, sono raccolte di codici e funzioni che gli sviluppatori hanno creato per noi.
Ho importato panda come pd che è una libreria per la manipolazione dei dati e numpy come np per consentirci di eseguire calcoli lineari e condizionali.
Modelli utilizzati
Parliamo dei modelli che ho usato. Ho introdotto sklearn.linear_model che è una e ho utilizzato un modello di regressione lineare. Nel caso ne avessimo bisogno, ho anche introdotto sklearn.preprocessing import StandardScaler che ci consentirà di ridimensionare i nostri dati.
Un altro modello che utilizzo si chiama xgboost import XGBRegressor . È un modello di regressione con un albero decisionale e altri aspetti utili.
Inoltre, ho utilizzato anche train_set_split perché voglio essere in grado di suddividere i dati tra un set di addestramento e un set di apprendimento. In Machine Learning, abbiamo bisogno di una serie di dati di addestramento affinché l'algoritmo apprenda prima che esegua qualsiasi previsione.
Ho anche inserito mean_squared_error per determinare il modello e la libreria matplotlib.pyplot nel caso in cui vogliamo fare alcuni elementi visivi.
Potremmo non usarli tutti, ma potrebbe essere utile, quindi li ho inseriti tutti.
Set di dati utilizzato
Successivamente, diamo una rapida occhiata al set di dati. Ho utilizzato la funzione df = pd.read_csv per inserire il set di dati dell'assicurazione e quindi ho convertito i dati in variabili fittizie utilizzando df1 = pd.get_dummies (df, drop_first = True) .
Per fare ciò, creiamo una nuova cella premendo Esc + B sulla nostra tastiera e quindi digitiamo df.head per valutare i dati.
Abbiamo l'età, il sesso, l'indice di massa corporea, i bambini, il fumatore, la regione e le spese che vogliamo prevedere come variabile dipendente. Questi sono i dati che arrivano impreparati per l'apprendimento automatico.
Nell'apprendimento automatico, non saremo in grado di utilizzare variabili categoriche come femmina, maschio, sud-ovest e nord-ovest. Quindi, la prima cosa che dobbiamo fare se si tratta di un tipico modello di regressione è tradurre le variabili categoriali in input numerico.
Per fare ciò, ho usato la funzione pd.get_dummies e poi l'ho cambiata in una colonna numerica cambiando df.head in df1.head . Facciamo clic sul pulsante Esegui per mostrare come appare.
Ora possiamo vedere questa nuova raccolta di colonne come sex_male , smoker_yes , region_northwest e così via. L'algoritmo sa automaticamente che se è 1 significa sì e 0 significa no.
È evidente che non ci sono sex_female e region_northeast perché non vogliamo complicare eccessivamente il modello. Li abbiamo eliminati utilizzando la funzione drop_first = True .
La prossima cosa che ho fatto è stata inserire la funzione LinearRegression e salvarla sul modello variabile.
Ho anche creato le variabili X e Y per prevedere le nostre variabili Y e poi ho inserito tutte le altre colonne per i nostri predittori utilizzando lo stesso set di dati che abbiamo usato in precedenza.
Per la variabile X, abbiamo utilizzato df1.drop('charges', axis=1) per eliminare gli addebiti. D'altra parte, abbiamo bisogno di addebiti per la variabile Y, ecco perché inseriamo df1['charges'] .
Con le funzioni seguenti, ho creato set di addestramento e test sia per X che per Y utilizzando la funzione train_test_split e li ho passati nelle variabili X e Y.
Inoltre, ho utilizzato model.fit per adattare i dati di addestramento al nostro modello. Ciò significa che il modello di regressione lineare apprenderà i dati di addestramento.
Questa volta, diamo un'occhiata ai nostri predittori. Il modo in cui lo vediamo è attraverso i coefficienti perché descrivono come ciascuna di queste caratteristiche o variabili influenza le cariche.
È anche evidente che il numero di coefficienti per smoker_yes è molto vicino se lo si confronta con il numero di ciò che abbiamo per gli influencer chiave e nel nostro modello.
Per creare una tabella in cui abbiamo le caratteristiche e i coefficienti, ho usato pd.DataFrame per inserire i coefficienti nella tabella e creare l'immagine.
Utilizzo di diversi modelli per la visualizzazione dei principali influencer
Si consiglia inoltre di utilizzare diversi modelli per ottenere gli influenzatori chiave inserendo XGB.Regressor .
Quando rappresentiamo il modello, è solo una semplice regressione lineare; ma quando abbiamo inserito XGB.Regressor, ci sono molti parametri che possiamo usare per ottimizzare il modello.
Ho anche replicato queste funzioni quando ho creato il frame di dati qui sotto. Questi coefficienti sono molto diversi rispetto a quanto visto nella regressione lineare.
Con questa tabella, i numeri sono esatti. Ad esempio, se sei un fumatore, le tue spese aumenteranno di $ 23.787. Se hai un figlio, aumenterà di $ 472 e così via.
Anche questi influencer sono importanti perché rispecchiano ciò che abbiamo sulla tabella di regressione lineare. È leggermente diverso ma molto vicino perché questi influencer riassumono in uno. Questo è solo un modo diverso di guardare agli influencer.
Test dell'accuratezza dell'analisi di regressione lineare
Successivamente, vogliamo vedere l'accuratezza del nostro modello, motivo per cui abbiamo utilizzato y_pred = model.predict (X_test) . Ha escogitato una previsione che sarebbe stata disattivata entro 5885,7.
Questo è solo un set di dati di prova e se la previsione è buona o cattiva, dobbiamo ancora valutarla. Non lo faremo in questo momento poiché ci stiamo concentrando solo sui nostri influenzatori chiave.
Tornando a LuckyTemplates, ti mostrerò come lo metto molto facilmente. Questa è una tabella separata in cui puoi vedere le caratteristiche e gli influencer.
L'ho fatto andando su Transform data .
Quindi, ho duplicato il mio set di dati e sono riuscito a creare questa tabella. Possiamo anche andare ai passaggi applicati per vedere il codice Python e rivedere le variabili che abbiamo usato.
Apriamo lo script Python facendo doppio clic su di esso.
Abbiamo portato le nostre biblioteche. L'abbiamo convertito in un set di dati di pre-elaborazione di apprendimento automatico composto solo da zero e uno.
Inoltre, abbiamo introdotto un modello di regressione, creato X e Y per adattare i dati e quindi salvato la tabella come output. Il modello è abbastanza buono, quindi non ho utilizzato un set di test di addestramento.
Un'altra cosa che ho fatto è passare il set di dati a df perché è solo più facile da scrivere. Il set di dati è la variabile per i dati originali.
Con questa tabella, l'ho salvata come output, ecco perché abbiamo questi coefficienti.
Per portarlo come oggetto visivo, fai clic su Chiudi e applica .
Ora abbiamo un grafico a barre . Ho anche usato la formattazione condizionale per mostrare gli aspetti positivi e negativi.
Come installare DAX Studio e l'editor tabulare in LuckyTemplates
Configurare le impostazioni di query in LuckyTemplates DAX Studio
Parametri di LuckyTemplates tramite l'editor di query
Conclusione
In conclusione, comprendere gli influencer chiave e implementare la regressione lineare in Python può essere un potente strumento per l'analisi e la previsione dei dati.
Identificando i fattori chiave che influiscono su una variabile dipendente e utilizzando la regressione lineare per modellare le loro relazioni, possiamo comprendere e prevedere meglio i risultati futuri .
Con l'uso delle potenti librerie di Python, è facile implementare la regressione lineare ed estrarre informazioni significative dai dati.
Ti auguro il meglio,
Cos'è il sé in Python: esempi del mondo reale
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.
Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.
In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.
Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.
Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.
Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.
Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.
Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere