Power Automate si applica a ogni azione nei flussi di lavoro
Scopri l
Quando si lavora con un set di dati composto da più variabili, è meglio essere in grado di dare un senso a come queste differiscono e interagiscono tra loro. In questo tutorial, dimostrerò come utilizzare la funzione Seaborn in Python per visualizzare alternative alla distribuzione di una variabile. Puoi guardare il video completo di questo tutorial in fondo a questo blog.
Sommario
Utilizzo della funzione Seaborn in Python
Lo dimostrerò sul set di dati MPG, disponibile all'interno di Seaborn. Quindi, andiamo avanti e importiamo tutti i pacchetti di cui abbiamo bisogno e tutti i dati di cui abbiamo bisogno. Esamineremo qui la distribuzione della variabile MPG e come variano. I due modi comuni per farlo sono l'istogramma e il boxplot .
Quindi userò la funzione displot (DIS per la distribuzione). Quindi, devo specificare quale set di dati è e quale variabile metteremo sull'asse X. E con questo, abbiamo la distribuzione.
Questo è abbastanza buono. Questo è molto facile vedere l'intera distribuzione e la forma. Un paio di carenze con questa visualizzazione della distribuzione però. Uno è che il numero di contenitori che stiamo usando è probabilmente arbitrario. L'altra cosa è che non possiamo necessariamente sapere istantaneamente qual è la media della variabile.
La cosa bella di Seaborn è che una volta che ho impostato quale variabile voglio, dove e quale set di dati sto usando, è davvero plug-and-chug con la creazione di una nuova visualizzazione. Ora andremo al boxplot. Boxplot non usa bin.
L'idea qui è che possiamo vedere il valore del quartile molto chiaramente, la mediana in particolare, e vediamo gli altri valori del quartile. Vediamo che c'è un valore anomalo, e questa è una trama molto precisa. Il boxplot del problema è che è preciso con cose che in genere a molti utenti aziendali probabilmente non interessano.
Quindi, questa trama è un po 'difficile per le persone non statistiche ottenere davvero molto valore. E ancora, sta aggregando i dati, quindi stiamo perdendo molti dettagli. È difficile sapere esattamente che aspetto abbia. Possiamo vedere che c'è un valore anomalo. Possiamo vedere che la maggior parte dei valori sono qui. L'istogramma ci offre un modo più intuitivo di osservarlo.
Queste sono entrambe buone trame. Entrambi hanno i loro scopi. Diamo un'occhiata ad alcune alternative usando Seaborn per visualizzare. Continueremo con MPG per la distribuzione di quella variabile.
Simile al boxplot, puoi vedere qui che la mediana è chiaramente contrassegnata. Vediamo anche l'intervallo del quartile e possiamo vedere meglio qual è la distribuzione complessiva. Anche questo è un po' come un istogramma. Si chiama grafico della stima della densità del kernel o grafico di KDE. È una versione uniforme dell'istogramma. Non stiamo usando alcun binning arbitrario. Tutto è levigato in una gamma continua qui.
Questo è una sorta di ibrido di questi due approcci e si occupa davvero di alcune delle carenze. Tuttavia, a seconda del tuo pubblico, potrebbero davvero avere difficoltà a guardare questo. Potrebbero non essere abituati, ma presenta alcuni vantaggi rispetto agli approcci tradizionali.
In questo approccio, non aggreghiamo più i dati. Ogni singolo punto viene tracciato. Questo prende elementi del grafico a dispersione, giusto? Se pensi a un grafico a dispersione, tracciamo ogni singolo punto sulle coordinate X e Y.
Infine, abbiamo lo stripplot . Quello che stiamo facendo qui è prendere quella distribuzione e la stiamo disperdendo in modo casuale. Questo è un processo casuale. Non stiamo più cercando di dare forma a quella distribuzione. Il problema con questo è che abbiamo tutti questi grumi che si incontrano, quindi potrebbe non essere buono a seconda di cosa stai cercando di fare. Forse vuoi colorarli per gruppo o qualcosa del genere, quindi c'è un'opzione per questo.
Possiamo cambiare il jitter a 0,25 e vedere che aumentando il jitter, questi punti si distribuiscono un po' di più.
Tuttavia, ogni volta che li eseguo, avranno un aspetto leggermente diverso. Quindi, se vuoi sbarazzartene e renderlo lo stesso ogni volta, puoi importare numpy come np . Ciò che fa è ciò che viene chiamato impostare un seme casuale.
Ogni volta che eseguo qualcosa che ha a che fare con numeri casuali, userò gli stessi numeri casuali. Le cose non cambiano casualmente quando lo riesegui. Questo potrebbe essere utile per qualsiasi tipo di simulazione che stai facendo, cosa che accade molto anche nella scienza dei dati e nell'analisi con questa visualizzazione. Quindi ora, ogni volta che eseguo questa trama, avremo lo stesso aspetto di quello.
Posso anche aggiungere qui l'origine Y, e ora vediamo che stiamo creando una distribuzione bivariante. Prendiamo la distribuzione del chilometraggio e la segmentiamo per origine.
Come utilizzare lo script Python in LuckyTemplates
Script Python nei
set di dati dei report di dati di LuckyTemplates in Panda con ProfileReport() | Python in LuckyTemplates
Conclusione
Queste sono alternative alla visualizzazione delle distribuzioni di una variabile. Tutti hanno i loro pro e contro. Questo non vuol dire, non usare mai il boxplot o l'istogramma, ma sta solo dicendo, ecco alcune altre opzioni, a seconda di cosa stai cercando di mostrare.
Sono tutti più o meno facili da realizzare come tutti gli altri quando usiamo la funzione Seaborn in Python. Se vuoi saperne di più su Python , dai un'occhiata ai link qui sotto.
Ti auguro il meglio!
Scopri l
Tecniche di modellazione dei dati per organizzare meglio le misure DAX per un flusso di lavoro più efficiente.
Scopri come utilizzare la funzione di filtro in Power Apps e come incorporarla nelle formule esistenti all
Come commentare più righe in Python: una guida semplice e veloce
Acquisisci familiarità con i connettori Power Automate per la manipolazione di numeri, testo e date/ore.
Ora, è molto facile studiare il budget rispetto all
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo articolo tratta anche come importare oggetti da R a LuckyTemplates.
Scopri tutto su Power Query e il linguaggio M per la trasformazione e la preparazione dei dati nel desktop di LuckyTemplates.
Cos'è il sé in Python: esempi del mondo reale
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.