Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Quando si lavora con un set di dati composto da più variabili, è meglio essere in grado di dare un senso a come queste differiscono e interagiscono tra loro. In questo tutorial, dimostrerò come utilizzare la funzione Seaborn in Python per visualizzare alternative alla distribuzione di una variabile. Puoi guardare il video completo di questo tutorial in fondo a questo blog.

Sommario

Utilizzo della funzione Seaborn in Python
Conclusione

Utilizzo della funzione Seaborn in Python

Lo dimostrerò sul set di dati MPG, disponibile all'interno di Seaborn. Quindi, andiamo avanti e importiamo tutti i pacchetti di cui abbiamo bisogno e tutti i dati di cui abbiamo bisogno. Esamineremo qui la distribuzione della variabile MPG e come variano. I due modi comuni per farlo sono l'istogramma e il boxplot .

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Quindi userò la funzione displot (DIS per la distribuzione). Quindi, devo specificare quale set di dati è e quale variabile metteremo sull'asse X. E con questo, abbiamo la distribuzione.

Questo è abbastanza buono. Questo è molto facile vedere l'intera distribuzione e la forma. Un paio di carenze con questa visualizzazione della distribuzione però. Uno è che il numero di contenitori che stiamo usando è probabilmente arbitrario. L'altra cosa è che non possiamo necessariamente sapere istantaneamente qual è la media della variabile.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

La cosa bella di Seaborn è che una volta che ho impostato quale variabile voglio, dove e quale set di dati sto usando, è davvero plug-and-chug con la creazione di una nuova visualizzazione. Ora andremo al boxplot. Boxplot non usa bin.

L'idea qui è che possiamo vedere il valore del quartile molto chiaramente, la mediana in particolare, e vediamo gli altri valori del quartile. Vediamo che c'è un valore anomalo, e questa è una trama molto precisa. Il boxplot del problema è che è preciso con cose che in genere a molti utenti aziendali probabilmente non interessano.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Quindi, questa trama è un po 'difficile per le persone non statistiche ottenere davvero molto valore. E ancora, sta aggregando i dati, quindi stiamo perdendo molti dettagli. È difficile sapere esattamente che aspetto abbia. Possiamo vedere che c'è un valore anomalo. Possiamo vedere che la maggior parte dei valori sono qui. L'istogramma ci offre un modo più intuitivo di osservarlo.

Queste sono entrambe buone trame. Entrambi hanno i loro scopi. Diamo un'occhiata ad alcune alternative usando Seaborn per visualizzare. Continueremo con MPG per la distribuzione di quella variabile.

Simile al boxplot, puoi vedere qui che la mediana è chiaramente contrassegnata. Vediamo anche l'intervallo del quartile e possiamo vedere meglio qual è la distribuzione complessiva. Anche questo è un po' come un istogramma. Si chiama grafico della stima della densità del kernel o grafico di KDE. È una versione uniforme dell'istogramma. Non stiamo usando alcun binning arbitrario. Tutto è levigato in una gamma continua qui.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Questo è una sorta di ibrido di questi due approcci e si occupa davvero di alcune delle carenze. Tuttavia, a seconda del tuo pubblico, potrebbero davvero avere difficoltà a guardare questo. Potrebbero non essere abituati, ma presenta alcuni vantaggi rispetto agli approcci tradizionali.

In questo approccio, non aggreghiamo più i dati. Ogni singolo punto viene tracciato. Questo prende elementi del grafico a dispersione, giusto? Se pensi a un grafico a dispersione, tracciamo ogni singolo punto sulle coordinate X e Y.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Infine, abbiamo lo stripplot . Quello che stiamo facendo qui è prendere quella distribuzione e la stiamo disperdendo in modo casuale. Questo è un processo casuale. Non stiamo più cercando di dare forma a quella distribuzione. Il problema con questo è che abbiamo tutti questi grumi che si incontrano, quindi potrebbe non essere buono a seconda di cosa stai cercando di fare. Forse vuoi colorarli per gruppo o qualcosa del genere, quindi c'è un'opzione per questo.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Possiamo cambiare il jitter a 0,25 e vedere che aumentando il jitter, questi punti si distribuiscono un po' di più.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Tuttavia, ogni volta che li eseguo, avranno un aspetto leggermente diverso. Quindi, se vuoi sbarazzartene e renderlo lo stesso ogni volta, puoi importare numpy come np . Ciò che fa è ciò che viene chiamato impostare un seme casuale.

Ogni volta che eseguo qualcosa che ha a che fare con numeri casuali, userò gli stessi numeri casuali. Le cose non cambiano casualmente quando lo riesegui. Questo potrebbe essere utile per qualsiasi tipo di simulazione che stai facendo, cosa che accade molto anche nella scienza dei dati e nell'analisi con questa visualizzazione. Quindi ora, ogni volta che eseguo questa trama, avremo lo stesso aspetto di quello.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Posso anche aggiungere qui l'origine Y, e ora vediamo che stiamo creando una distribuzione bivariante. Prendiamo la distribuzione del chilometraggio e la segmentiamo per origine.

Funzione Seaborn in Python per visualizzare la distribuzione di una variabile

Come utilizzare lo script Python in LuckyTemplates
Script Python nei
set di dati dei report di dati di LuckyTemplates in Panda con ProfileReport() | Python in LuckyTemplates

Conclusione

Queste sono alternative alla visualizzazione delle distribuzioni di una variabile. Tutti hanno i loro pro e contro. Questo non vuol dire, non usare mai il boxplot o l'istogramma, ma sta solo dicendo, ecco alcune altre opzioni, a seconda di cosa stai cercando di mostrare.

Sono tutti più o meno facili da realizzare come tutti gli altri quando usiamo la funzione Seaborn in Python. Se vuoi saperne di più su Python , dai un'occhiata ai link qui sotto.

Ti auguro il meglio!

Lascia un commento

Power Automate si applica a ogni azione nei flussi di lavoro

Power Automate si applica a ogni azione nei flussi di lavoro

Scopri l

Tecniche di modellazione dei dati per organizzare le misure DAX

Tecniche di modellazione dei dati per organizzare le misure DAX

Tecniche di modellazione dei dati per organizzare meglio le misure DAX per un flusso di lavoro più efficiente.

Filtro Power Apps: cosè e come si usa?

Filtro Power Apps: cosè e come si usa?

Scopri come utilizzare la funzione di filtro in Power Apps e come incorporarla nelle formule esistenti all

Come commentare più righe in Python: una guida semplice e veloce

Come commentare più righe in Python: una guida semplice e veloce

Come commentare più righe in Python: una guida semplice e veloce

Connettori Power Automate: numero, testo e data e ora

Connettori Power Automate: numero, testo e data e ora

Acquisisci familiarità con i connettori Power Automate per la manipolazione di numeri, testo e date/ore.

Budget Vs Actual Vs Last Year - Suggerimenti per la rendicontazione finanziaria

Budget Vs Actual Vs Last Year - Suggerimenti per la rendicontazione finanziaria

Ora, è molto facile studiare il budget rispetto all

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo articolo tratta anche come importare oggetti da R a LuckyTemplates.

Che cosè Power Query e M Language: una panoramica dettagliata

Che cosè Power Query e M Language: una panoramica dettagliata

Scopri tutto su Power Query e il linguaggio M per la trasformazione e la preparazione dei dati nel desktop di LuckyTemplates.

Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.