Cosè il sé in Python: esempi del mondo reale
Cos'è il sé in Python: esempi del mondo reale
Nel blog di oggi illustreremo il processo di visualizzazione della correlazione Python e come importare questi oggetti visivi in LuckyTemplates. Puoi guardare il video completo di questo tutorial in fondo a questo blog.
Sommario
Comprensione delle correlazioni
Ecco una bella immagine che mostra i diversi tipi di correlazioni.
Partendo da sinistra, abbiamo la perfetta correlazione positiva , il che significa che ha un valore di correlazione pari a 1. Quindi, è seguita da correlazioni positive in ordine decrescente che portano a 0.
Il grafico centrale non mostra alcuna correlazione suggerendo un valore di correlazione pari a 0.
Infine, il lato destro presenta valori di correlazione negativi decrescenti da 0. Il grafico più a destra è la correlazione negativa perfetta che ha un valore di correlazione di -1.
Pacchetti per la correlazione Python
Useremo quattro pacchetti per questo tutorial. Il nostro primo pacchetto è Pandas da utilizzare per la manipolazione dei dati e salvato come variabile pd .
Per la visualizzazione, useremo Matplotlib , salvato come variabile plt per un uso più semplice di queste funzioni. Seaborn , la nostra libreria di visualizzazione statistica, verrà salvata come sns . E infine, Numpy , da salvare come np , verrà utilizzato per l'algebra lineare.
Per i dati, utilizzeremo un set di dati di esempio in Seaborn. Quindi, utilizzando la variabile sns, inseriremo il set di dati dei diamanti come mostrato di seguito. .
Attributi dei dati
Possiamo visualizzare gli attributi dei nostri dati utilizzando la funzione dataset.info . Questa funzione ci mostra tutti i diversi tipi di dati come mostrato nell'ultima colonna sottostante.
Si noti che la correlazione funziona solo su variabili numeriche, quindi esamineremo le variabili numeriche per la maggior parte del tempo. Tuttavia, impareremo anche come utilizzare alcune delle variabili categoriali per la visualizzazione.
Il set di dati di correlazione Python
Usando la funzione head scritta come dataset.head , possiamo ottenere le prime cinque righe dei nostri dati che dovrebbero apparire così.
Abbiamo carato nella prima colonna, seguito dalle variabili categoriche taglio , colore e chiarezza , e quindi valori numerici per il resto dei dati.
Correlazione Python: creazione di un grafico a dispersione
Quando si visualizzano le correlazioni e si osservano due variabili, di solito si guardano i grafici a dispersione .
Pertanto, utilizzando la libreria Seaborn, abbiamo creato il nostro grafico a dispersione utilizzando la funzione del grafico a dispersione in cui abbiamo passato i dati che abbiamo salvato sopra come data=dataset . Quindi, abbiamo identificato le variabili X e Y, rispettivamente carato e prezzo .
Ecco il nostro grafico a dispersione realizzato con la libreria Seaborn.
Puoi vedere che questo grafico a dispersione è piuttosto denso. Questo perché abbiamo circa 54.000 righe di dati ei punti non sono necessariamente rappresentati nel modo migliore.
Possiamo premere i tasti Maiusc + Tab per vedere i diversi modi di modellare il grafico a dispersione. Ci mostrerà un elenco di diversi parametri che possiamo aggiungere al nostro grafico a dispersione.
Scorrendo più in basso ci daranno informazioni su cosa fa ciascuno dei parametri elencati.
Ulteriori parametri del grafico a dispersione
Immergiamoci un po'. Possiamo rendere linewidth=0 perché le linee bianche nel nostro primo grafico a dispersione, mostrato di seguito, oscurano in qualche modo le cose.
Vogliamo anche regolare l'alfa in modo da poter controllare l'opacità. Usiamo alpha=0.2 per il nostro esempio. Ma ovviamente, potresti anche cambiarlo in 0.1.
Se aggiungiamo questi parametri e facciamo clic su Esegui , puoi vedere che il nostro grafico a dispersione diventa più opaco senza le linee bianche.
Puoi giocare con i parametri per ottenere la migliore visuale che stai cercando.
Utilizzo delle variabili categoriali
Possiamo anche utilizzare alcune delle nostre variabili categoriche per migliorare la nostra grafica. Ad esempio, sappiamo che i nostri dati hanno un taglio per il nostro diamante.
Quello che possiamo fare è passare in quella categoria cut usando il parametro hue come hue='cut'. Questo ci permetterà di visualizzare questi punti cambiando i colori.
Naturalmente, possiamo aggiungere più parametri come l'alpha, per esempio. Possiamo aggiungerlo di nuovo, impostare su 0.2 e vedere come cambia l'aspetto visivo. Facciamo clic su Esegui e puoi vedere una piccola differenza.
Possiamo giocare con i parametri per ottenere l'immagine che stiamo cercando. Possiamo anche usare diverse categorie come la chiarezza, che ci dà le categorie di chiarezza e ci dà anche una visione leggermente diversa di quella dispersione.
Correlazione con altre variabili
Potresti anche essere interessato a come sono correlati altri valori oltre al prezzo e al carato. Quindi, se osserviamo un grafico a dispersione per table , che è la dimensione numerica di quel diamante e depth , possiamo vedere che non esiste una relazione lineare uno a uno.
Possiamo anche considerare altre due variabili come la profondità e il prezzo . Sulla base del grafico, possiamo vedere che i dati si concentrano intorno all'area centrale.
Correlazione Python: creazione di un grafico di regressione
Passiamo a quello che chiamiamo grafico di regressione che ci consente di valutare la relazione lineare tra due variabili.
Quindi, invece della funzione grafico a dispersione, questa volta useremo la funzione regplot . Passeremo la stessa struttura: i nostri dati quindi le variabili X e Y.
Il risultato mostra una linea che misura la relazione lineare tra le variabili. È anche evidente come i nostri valori girino attorno a quella linea di regressione.
Questa non è una grafica molto bella al momento, ma possiamo ancora ottimizzarla per ottenerne una migliore. Ad esempio, possiamo passare uno stile utilizzando la variabile Matplotlib. Possiamo cambiare lo stile in uno sfondo scuro usando il codice plt.style.use('dark_background').
Prendi lo stesso grafico di regressione e passa alcune parole chiave per la nostra dispersione e linea. Usiamo il colore rosso e una larghezza della linea pari a 1 per la nostra linea di regressione. Questo è scritto come line_kws={“color” : “red”, 'linewidth' : 1).
Per le nostre parole chiave scatter, impostiamo il colore come bianco, il colore del bordo come grigio e l'opacità come 0.4 da scrivere come scatter_kws={“color” : “white”, 'edgecolor' : 'grey', 'alpha' : 0.4 ).
Questi parametri ci danno una visione leggermente diversa mostrata di seguito.
Correlazione Python: creazione di una matrice di correlazione
Finora, quello che abbiamo visto sono i grafici a dispersione con solo due variabili, ma potremmo anche voler guardare tutte le nostre correlazioni variabili.
Questa operazione viene eseguita utilizzando il nostro set di dati con una funzione frame di dati denominata correlazione rappresentata come dataset.corr. E quello che otterremo è una matrice che ci mostra le correlazioni su ognuna di queste variabili.
I numeri nella tabella sopra rappresentano la correlazione di Pearson , che si concentra sulla relazione lineare tra tutte queste variabili.
Ma se non siamo sicuri che le nostre variabili siano completamente correlate linearmente, possiamo utilizzare un diverso tipo di correlazione che si concentra maggiormente sull'impatto rispetto alla parte lineare. Si chiama correlazione di Spearman .
E possiamo vedere informazioni su tutte queste cose premendo Maiusc + Tab. Se scorri verso il basso, possiamo vedere la correlazione del rango di Spearman, il coefficiente di correlazione di Pearson e molti modi diversi per misurare i nostri dati.
Guardando indietro alla nostra matrice di correlazione in precedenza, sappiamo che il prezzo e il carato sono abbastanza ben correlati.
Provengono dal nostro grafico qui che mostra che sono abbastanza lineari a 0,92.
Ora, se invece usiamo la correlazione di Spearman, l'impatto o il rango sarà un po' più alto a 0,96.
Questi diversi tipi di correlazioni ci consentono di raccogliere diversi attributi di correlazione tra tali variabili.
Correlazione multipla x singola variabile
A volte, non vogliamo vedere una matrice perché siamo più preoccupati per la correlazione di tutte le variabili con una sola variabile (ad esempio, il prezzo).
Quello che possiamo fare allora è isolare price usando dataset.corr seguito da 'price' .
Ora, possiamo vedere che il prezzo è correlato con tutte le nostre diverse variabili numeriche in questa tabella. E il motivo per cui potremmo volerlo fare è per le trame visive.
Quindi diamo un'occhiata alla visualizzazione della nostra matrice di correlazione con una mappa termica.
Correlazione Python: creazione di una mappa termica
Possiamo passare questa variabile di correlazione in una mappa termica Seaborn usando la funzione sns.heatmap.
Questo ci darà una mappa termica simile a questa.
Ancora una volta, possiamo aggiungere parametri alle nostre preferenze. Possiamo passare il parametro linewidths=1 e aggiungere annotazioni usando annot=True .
E puoi vedere che la nostra mappa termica ora ha un aspetto molto diverso. In questo momento abbiamo una bella mappa termica.
Possiamo vedere l'utilità di aggiungere le righe e le annotazioni. Ancora una volta, se premiamo Maiusc + Tab, verranno visualizzati tutti i diversi parametri che possono essere inseriti.
Successivamente, prova ad aggiungere method='spearman ' nel nostro codice, così saprai come utilizzare un diverso tipo di correlazione a seconda del tuo caso d'uso.
Mappa termica con una variabile
Successivamente, isoliamo una variabile e creiamo una mappa termica con la correlazione che va da negativa a positiva.
Questo ci darà questa mappa di calore qui sotto.
Possiamo sicuramente cambiare anche lo stile. Ad esempio, possiamo utilizzare il parametro cmap come cmap='coolwarm' . Questo cambia i colori in freddi e caldi ed eliminerà anche il nostro sfondo nero.
Se facciamo clic su Esegui , otterremo questa mappa di calore di seguito. Per freddo, abbiamo il blu e poi per caldo, abbiamo le barre rosse.
Possiamo anche cambiare la direzione per allineare la nostra mappa con la barra dei colori. Questo viene fatto modificando il nostro parametro sort_values e aggiungendo ascending=False .
Questo andrà dal più correlato (la barra rossa) al meno correlato (la barra blu).
Correlazione Python: creazione di un oggetto visivo Scala
Un modo avanzato per visualizzare la nostra correlazione consiste nell'usare una maschera per bloccare tutte le correlazioni che abbiamo già fatto.
Possiamo farlo con Numpy, utilizzando alcune funzioni TRUE e FALSE per creare una scala visiva per le nostre correlazioni.
Ecco come dovrebbero apparire i risultati.
Vediamo come possiamo convogliare questo in LuckyTemplates.
Visualizzazione della scala in LuckyTemplates
Innanzitutto, apri LuckyTemplates. Ho inserito un set di dati sull'avocado in modo da poter vedere una visuale diversa. Puoi visualizzare questo set di dati nel riquadro Campi. Inizializzare l' oggetto visivo Python facendo clic sull'icona Python nel riquadro Visualizzazioni.
Abbiamo bisogno di creare il set di dati aggiungendo tutte le variabili numeriche che sono indicate con ? . Aggiungili facendo clic sulle caselle di controllo accanto a queste variabili.
Ora che abbiamo un set di dati, possiamo passare al nostro notebook Jupyter e copiare questo codice che avevamo in precedenza.
Quindi, copieremo il codice nell'editor di script Python in LuckyTemplates.
Successivamente, sceglieremo il nostro oggetto visivo, che sarebbe l'oggetto visivo della scala. Torniamo a Jupyter, copiamo il codice che abbiamo usato per la nostra visuale della scala.
Incolla il codice nell'editor di script Python.
L'ultima cosa da fare è assicurarsi che stiamo usando plt.show , che è richiesto nel tuo script Python. Aggiungi plt.show nell'ultima riga del codice e fai clic sull'icona Esegui nell'angolo in alto a destra dell'editor di script.
Per una visuale più grande, allunga un po' la scatola in modo da poter vedere lo script in esecuzione nell'angolo. Abbiamo la nostra visuale per la nostra mappa di calore, che sembra piuttosto carina.
E in LuckyTemplates, possiamo sicuramente vedere come l'aspetto visivo può cambiare in base al set di dati. Ad esempio, possiamo fare clic sull'icona Slicer nel riquadro Visualizzazioni e andare a Tipo nel riquadro Campi.
Ci darà i due tipi nel nostro set di dati, il convenzionale e il biologico . Se facciamo clic su un tipo, ad esempio organico , puoi vedere che la mappa termica cambia.
Le modifiche verranno applicate anche quando faremo clic sul tipo convenzionale successivo.
Ricorda che abbiamo bisogno di una variabile categoriale nel set di dati del nostro script Python per far funzionare questi filtri. Come possiamo vedere, il set di dati che abbiamo creato includeva type , consentendoci di filtrare l'oggetto visivo in quel modo.
Creazione delle relazioni del modello di dati
nell'analisi del testo di LuckyTemplates in Python | Un'introduzione
agli script Python nei report di dati di LuckyTemplates
Conclusione
In questo blog, hai imparato a visualizzare le correlazioni in Python e LuckyTemplates utilizzando diversi metodi come la correlazione di Pearson e la correlazione del rango di Spearman.
Ora puoi creare grafici a dispersione, grafici di regressione, matrice di correlazione, mappe di calore e immagini visive a scala per ottenere la migliore visualizzazione per il tuo set di dati. Puoi anche utilizzare una varietà di parametri per migliorare gli stili e le immagini.
Ti auguro il meglio,
Cos'è il sé in Python: esempi del mondo reale
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.
Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.
In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.
Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.
Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.
Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.
Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.
Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere