Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Quando si lavora con un set di dati composto da più variabili, è meglio essere in grado di dare un senso a come queste differiscono e interagiscono tra loro. In questo tutorial, dimostrerò come utilizzare la funzione Seaborn in Python per visualizzare alternative alla distribuzione di una variabile. Puoi guardare il video completo di questo tutorial in fondo a questo blog.

Sommario

Utilizzo della funzione Seaborn in Python

Lo dimostrerò sul set di dati MPG, disponibile all'interno di Seaborn. Quindi, andiamo avanti e importiamo tutti i pacchetti di cui abbiamo bisogno e tutti i dati di cui abbiamo bisogno. Esamineremo qui la distribuzione della variabile MPG e come variano. I due modi comuni per farlo sono l'istogramma e il boxplot .

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Quindi userò la funzione displot (DIS per la distribuzione). Quindi, devo specificare quale set di dati è e quale variabile metteremo sull'asse X. E con questo, abbiamo la distribuzione.

Questo è abbastanza buono. Questo è molto facile vedere l'intera distribuzione e la forma. Un paio di carenze con questa visualizzazione della distribuzione però. Uno è che il numero di contenitori che stiamo usando è probabilmente arbitrario. L'altra cosa è che non possiamo necessariamente sapere istantaneamente qual è la media della variabile.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

La cosa bella di Seaborn è che una volta che ho impostato quale variabile voglio, dove e quale set di dati sto usando, è davvero plug-and-chug con la creazione di una nuova visualizzazione. Ora andremo al boxplot. Boxplot non usa bin.

L'idea qui è che possiamo vedere il valore del quartile molto chiaramente, la mediana in particolare, e vediamo gli altri valori del quartile. Vediamo che c'è un valore anomalo, e questa è una trama molto precisa. Il boxplot del problema è che è preciso con cose che in genere a molti utenti aziendali probabilmente non interessano.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Quindi, questa trama è un po 'difficile per le persone non statistiche ottenere davvero molto valore. E ancora, sta aggregando i dati, quindi stiamo perdendo molti dettagli. È difficile sapere esattamente che aspetto abbia. Possiamo vedere che c'è un valore anomalo. Possiamo vedere che la maggior parte dei valori sono qui. L'istogramma ci offre un modo più intuitivo di osservarlo.

Queste sono entrambe buone trame. Entrambi hanno i loro scopi. Diamo un'occhiata ad alcune alternative usando Seaborn per visualizzare. Continueremo con MPG per la distribuzione di quella variabile.

Simile al boxplot, puoi vedere qui che la mediana è chiaramente contrassegnata. Vediamo anche l'intervallo del quartile e possiamo vedere meglio qual è la distribuzione complessiva. Anche questo è un po' come un istogramma. Si chiama grafico della stima della densità del kernel o grafico di KDE. È una versione uniforme dell'istogramma. Non stiamo usando alcun binning arbitrario. Tutto è levigato in una gamma continua qui.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Questo è una sorta di ibrido di questi due approcci e si occupa davvero di alcune delle carenze. Tuttavia, a seconda del tuo pubblico, potrebbero davvero avere difficoltà a guardare questo. Potrebbero non essere abituati, ma presenta alcuni vantaggi rispetto agli approcci tradizionali.

In questo approccio, non aggreghiamo più i dati. Ogni singolo punto viene tracciato. Questo prende elementi del grafico a dispersione, giusto? Se pensi a un grafico a dispersione, tracciamo ogni singolo punto sulle coordinate X e Y.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Infine, abbiamo lo stripplot . Quello che stiamo facendo qui è prendere quella distribuzione e la stiamo disperdendo in modo casuale. Questo è un processo casuale. Non stiamo più cercando di dare forma a quella distribuzione. Il problema con questo è che abbiamo tutti questi grumi che si incontrano, quindi potrebbe non essere buono a seconda di cosa stai cercando di fare. Forse vuoi colorarli per gruppo o qualcosa del genere, quindi c'è un'opzione per questo.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Possiamo cambiare il jitter a 0,25 e vedere che aumentando il jitter, questi punti si distribuiscono un po' di più.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Tuttavia, ogni volta che li eseguo, avranno un aspetto leggermente diverso. Quindi, se vuoi sbarazzartene e renderlo lo stesso ogni volta, puoi importare numpy come np . Ciò che fa è ciò che viene chiamato impostare un seme casuale.

Ogni volta che eseguo qualcosa che ha a che fare con numeri casuali, userò gli stessi numeri casuali. Le cose non cambiano casualmente quando lo riesegui. Questo potrebbe essere utile per qualsiasi tipo di simulazione che stai facendo, cosa che accade molto anche nella scienza dei dati e nell'analisi con questa visualizzazione. Quindi ora, ogni volta che eseguo questa trama, avremo lo stesso aspetto di quello.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Posso anche aggiungere qui l'origine Y, e ora vediamo che stiamo creando una distribuzione bivariante. Prendiamo la distribuzione del chilometraggio e la segmentiamo per origine.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile


Come utilizzare lo script Python in LuckyTemplates
Script Python nei
set di dati dei report di dati di LuckyTemplates in Panda con ProfileReport() | Python in LuckyTemplates

Conclusione

Queste sono alternative alla visualizzazione delle distribuzioni di una variabile. Tutti hanno i loro pro e contro. Questo non vuol dire, non usare mai il boxplot o l'istogramma, ma sta solo dicendo, ecco alcune altre opzioni, a seconda di cosa stai cercando di mostrare.

Sono tutti più o meno facili da realizzare come tutti gli altri quando usiamo la funzione Seaborn in Python. Se vuoi saperne di più su Python , dai un'occhiata ai link qui sotto.

Ti auguro il meglio!


Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.

Introduzione al filtraggio del contesto in LuckyTemplates

Introduzione al filtraggio del contesto in LuckyTemplates

In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.

Idee di materializzazione per cache di dati in DAX Studio

Idee di materializzazione per cache di dati in DAX Studio

Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.

Reporting aziendale tramite LuckyTemplates

Reporting aziendale tramite LuckyTemplates

Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere