Cosè il sé in Python: esempi del mondo reale
Cos'è il sé in Python: esempi del mondo reale
Quando si lavora con un set di dati composto da più variabili, è meglio essere in grado di dare un senso a come queste differiscono e interagiscono tra loro. In questo tutorial, dimostrerò come utilizzare la funzione Seaborn in Python per visualizzare alternative alla distribuzione di una variabile. Puoi guardare il video completo di questo tutorial in fondo a questo blog.
Sommario
Utilizzo della funzione Seaborn in Python
Lo dimostrerò sul set di dati MPG, disponibile all'interno di Seaborn. Quindi, andiamo avanti e importiamo tutti i pacchetti di cui abbiamo bisogno e tutti i dati di cui abbiamo bisogno. Esamineremo qui la distribuzione della variabile MPG e come variano. I due modi comuni per farlo sono l'istogramma e il boxplot .
Quindi userò la funzione displot (DIS per la distribuzione). Quindi, devo specificare quale set di dati è e quale variabile metteremo sull'asse X. E con questo, abbiamo la distribuzione.
Questo è abbastanza buono. Questo è molto facile vedere l'intera distribuzione e la forma. Un paio di carenze con questa visualizzazione della distribuzione però. Uno è che il numero di contenitori che stiamo usando è probabilmente arbitrario. L'altra cosa è che non possiamo necessariamente sapere istantaneamente qual è la media della variabile.
La cosa bella di Seaborn è che una volta che ho impostato quale variabile voglio, dove e quale set di dati sto usando, è davvero plug-and-chug con la creazione di una nuova visualizzazione. Ora andremo al boxplot. Boxplot non usa bin.
L'idea qui è che possiamo vedere il valore del quartile molto chiaramente, la mediana in particolare, e vediamo gli altri valori del quartile. Vediamo che c'è un valore anomalo, e questa è una trama molto precisa. Il boxplot del problema è che è preciso con cose che in genere a molti utenti aziendali probabilmente non interessano.
Quindi, questa trama è un po 'difficile per le persone non statistiche ottenere davvero molto valore. E ancora, sta aggregando i dati, quindi stiamo perdendo molti dettagli. È difficile sapere esattamente che aspetto abbia. Possiamo vedere che c'è un valore anomalo. Possiamo vedere che la maggior parte dei valori sono qui. L'istogramma ci offre un modo più intuitivo di osservarlo.
Queste sono entrambe buone trame. Entrambi hanno i loro scopi. Diamo un'occhiata ad alcune alternative usando Seaborn per visualizzare. Continueremo con MPG per la distribuzione di quella variabile.
Simile al boxplot, puoi vedere qui che la mediana è chiaramente contrassegnata. Vediamo anche l'intervallo del quartile e possiamo vedere meglio qual è la distribuzione complessiva. Anche questo è un po' come un istogramma. Si chiama grafico della stima della densità del kernel o grafico di KDE. È una versione uniforme dell'istogramma. Non stiamo usando alcun binning arbitrario. Tutto è levigato in una gamma continua qui.
Questo è una sorta di ibrido di questi due approcci e si occupa davvero di alcune delle carenze. Tuttavia, a seconda del tuo pubblico, potrebbero davvero avere difficoltà a guardare questo. Potrebbero non essere abituati, ma presenta alcuni vantaggi rispetto agli approcci tradizionali.
In questo approccio, non aggreghiamo più i dati. Ogni singolo punto viene tracciato. Questo prende elementi del grafico a dispersione, giusto? Se pensi a un grafico a dispersione, tracciamo ogni singolo punto sulle coordinate X e Y.
Infine, abbiamo lo stripplot . Quello che stiamo facendo qui è prendere quella distribuzione e la stiamo disperdendo in modo casuale. Questo è un processo casuale. Non stiamo più cercando di dare forma a quella distribuzione. Il problema con questo è che abbiamo tutti questi grumi che si incontrano, quindi potrebbe non essere buono a seconda di cosa stai cercando di fare. Forse vuoi colorarli per gruppo o qualcosa del genere, quindi c'è un'opzione per questo.
Possiamo cambiare il jitter a 0,25 e vedere che aumentando il jitter, questi punti si distribuiscono un po' di più.
Tuttavia, ogni volta che li eseguo, avranno un aspetto leggermente diverso. Quindi, se vuoi sbarazzartene e renderlo lo stesso ogni volta, puoi importare numpy come np . Ciò che fa è ciò che viene chiamato impostare un seme casuale.
Ogni volta che eseguo qualcosa che ha a che fare con numeri casuali, userò gli stessi numeri casuali. Le cose non cambiano casualmente quando lo riesegui. Questo potrebbe essere utile per qualsiasi tipo di simulazione che stai facendo, cosa che accade molto anche nella scienza dei dati e nell'analisi con questa visualizzazione. Quindi ora, ogni volta che eseguo questa trama, avremo lo stesso aspetto di quello.
Posso anche aggiungere qui l'origine Y, e ora vediamo che stiamo creando una distribuzione bivariante. Prendiamo la distribuzione del chilometraggio e la segmentiamo per origine.
Come utilizzare lo script Python in LuckyTemplates
Script Python nei
set di dati dei report di dati di LuckyTemplates in Panda con ProfileReport() | Python in LuckyTemplates
Conclusione
Queste sono alternative alla visualizzazione delle distribuzioni di una variabile. Tutti hanno i loro pro e contro. Questo non vuol dire, non usare mai il boxplot o l'istogramma, ma sta solo dicendo, ecco alcune altre opzioni, a seconda di cosa stai cercando di mostrare.
Sono tutti più o meno facili da realizzare come tutti gli altri quando usiamo la funzione Seaborn in Python. Se vuoi saperne di più su Python , dai un'occhiata ai link qui sotto.
Ti auguro il meglio!
Cos'è il sé in Python: esempi del mondo reale
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.
Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.
In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.
Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.
Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.
Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.
Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.
Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere