Cosè il sé in Python: esempi del mondo reale
Cos'è il sé in Python: esempi del mondo reale
Questo blog dimostrerà come utilizzare un grafico di distribuzione cumulativa , noto anche come funzione di distribuzione cumulativa empirica o grafici ECDF, e mostrerà i vantaggi dell'utilizzo di questa variazione di trama rispetto ad altri tipi di trama. Puoi guardare il video completo di questo tutorial in fondo a questo blog .
La maggior parte delle persone preferisce i grafici ECDF rispetto per visualizzare i dati mentre tracciano direttamente ogni punto dati e questa funzione semplifica l'interazione dell'utente con il grafico. Oggi imparerai come utilizzare un ECDF in Python e LuckyTemplates e migliorare le tue presentazioni e report sulla distribuzione dei dati.
Sommario
Tipi di grafici di distribuzione
Inizierò filtrando i miei dati in un giorno particolare, sabato, e possiamo vedere sotto tutti questi grafici Python usati per descrivere le distribuzioni. Abbiamo qui il nostro grafico ECDF, un istogramma, un grafico di KDE e un grafico a riquadri.
Tutti questi grafici descriveranno come i dati vengono diffusi o distribuiti. Ad esempio, se scendiamo e osserviamo l'istogramma, possiamo vedere che la maggior parte di questi contenitori alti si troverà dove si trovano i nostri dati.
A circa $ 3,50, abbiamo il bin più alto per i nostri dati Suggerimenti nel nostro set di dati di seguito.
Possiamo anche usare un grafico di KDE che ci fornisce una metrica diversa quando guardiamo alla distribuzione. L'istogramma si occupa del conteggio che sarà in questi contenitori, mentre KDE si occupa della densità.
Con un grafico di KDE, puoi dire dove si trova la maggior parte dei nostri dati individuando la maggiore densità o il più alto rigonfiamento nel grafico, se lo desideri. Quindi, nell'immagine qui sopra, possiamo dire che è distribuito da qualche parte tra $2 e $4.
Lo stesso vale per un box plot, che mostra che la distribuzione va da $2 a $4, ed è qui che si troverà la maggior parte dei nostri dati. Utilizza una mediana, la linea orizzontale che divide il riquadro, per darci un'idea di dove si trova la distribuzione maggiore.
E poi, abbiamo il grafico ECDF dove sul lato sinistro dell'asse y, puoi vedere la parola Proportion , che rappresenta i nostri percentili. Sulla base della trama, a $ 3,50, stiamo esaminando circa il 50% dei nostri dati, e a $ 5 e sotto è dove viene distribuito l'80% dei nostri dati.
Codice trama istogramma
Ora ti mostrerò il codice per ciascuno di questi grafici, a partire dall'istogramma. Hanno tutti una codifica molto simile e ripetibile , quindi puoi recuperarli rapidamente utilizzando un codice, come un modello.
Per prima cosa dobbiamo importare Seaborn e salvarlo come sb, seguito da matplotlib.pyplot come plt. Useremo uno stile di sfondo chiamato ggplot e quella variabile matplotlib per passare stili diversi.
Ad esempio, nell'immagine sottostante, possiamo vedere che nell'undicesima riga stiamo aggiungendo un titolo per l'istogramma e le dimensioni dei tick nelle righe seguenti. Gli ytick e gli xtick rappresentano le dimensioni x e y di conseguenza.
Nella quattordicesima riga, usiamo una variabile Seaborn per passare la funzione che porta in quel particolare grafico, come l' histplot nell'esempio sopra, che rappresenta un istogramma grafico. Quindi passiamo i dati dalla 4a riga nella funzione come set di dati.
Tutto ciò che inserisci nei valori rappresenta il tuo set di dati e lascerà cadere i duplicati. Quindi useremo x per i suggerimenti e una tonalità che , insieme a seaborn, ti consente di separare i tuoi dati per categoria. Se torniamo alla nostra visuale, possiamo vedere che ha categorie, tra cui il, l'ora o il fumatore.
Trama di KDE
Per la trama di KDE, tutto è quasi identico. Abbiamo solo bisogno di passare un nuovo parametro chiamato ombra per avere quell'aspetto sfumato. A parte questo, la tonalità, i dati e il resto sono gli stessi.
Con la trama a riquadri, è per lo più simile ad altre trame tranne che per alcune piccole differenze. Qui usiamo la funzione boxplot dove x è il giorno e y sono i suggerimenti. Inoltre, non stiamo usando la tonalità per questa trama.
Quindi è la stessa struttura del grafico ECDF e l'unica differenza è nella variabile Seaborn, dove passiamo in un grafico ECDF e usiamo la tonalità come giorno. Ma possiamo anche cambiare quella tonalità in un'altra categoria che abbiamo, come fumatore.
Se passiamo questa categoria, ci ritroveremo con un grafico ECDF con due linee diverse. In queste distribuzioni, possiamo vedere che i fumatori hanno di più rispetto alla nostra particolare larghezza della linea.
I non fumatori hanno il cento per cento di questi dati sotto i 6 dollari, mentre i fumatori li hanno a 6 dollari. Così interessante, i nostri fumatori potrebbero lasciare una mancia più grande in un giorno particolare.
Styling dei grafici ECDF
Ora possiamo modellare ulteriormente i nostri grafici ECDF per renderli più presentabili. Nell'immagine qui sotto ci sono diversi grafici ECDF. Nella prima trama, ho ingrandito le linee e utilizzato una tavolozza di colori diversa.
Nella prima trama, ho usato diversi parametri all'interno della funzione. Come puoi vedere sotto, ho passato nella tavolozza come estate e la larghezza della linea come 5.
Ho anche confrontato sabato e domenica, motivo per cui ci sono due diverse linee verdi. Qui possiamo vedere che la mancia di $ 3 è al 45° percentile per domenica e al 70° percentile per giovedì, il che ci dice che le persone tendono a lasciare mance più alte domenica.
Possiamo anche cambiare l'asse X e Y, scambiare la proporzione e la punta all'interno della nostra trama e cambiare la tavolozza, proprio come nell'immagine qui sotto.
Qui possiamo vedere che la mancia di $ 2 è al 20° percentile per domenica, che è la linea viola nel grafico. Quindi i dati sono gli stessi del precedente grafico ECDF e solo la presentazione è diversa.
Ora abbiamo un altro grafico con lo stesso set di dati e mantiene le posizioni originali dell'asse come mostrato nell'immagine sopra. La differenza questa volta è che la direzione delle linee è invertita.
Stile dei grafici ECDF
Se guardiamo il codice, tutto ciò che stiamo facendo è passare il parametro complementare equals = true. Questa azione ci consentirà di dire che nell'intervallo di $ 2 e oltre è dove viene distribuito l'80% dei nostri dati, invece di dire che al di sotto dell'intervallo di $ 2 è dove viene distribuito il 20% dei nostri dati. Ancora una volta, sono gli stessi dati con un aspetto o un modo diverso di presentarli.
E nel nostro quarto e ultimo grafico ECDF, stiamo usando Conte invece di proporzione.
Questo approccio è utile quando abbiamo più di pochi grafici. Osservando la colonna del conteggio nell'immagine qui sotto, possiamo vedere che non ci sono molte osservazioni venerdì, il che ci dice che le persone non lasciano molte mance quel giorno.
Elementi essenziali del codice dei grafici ECDF
Se guardiamo al codice, troverai Seaborn , che è la cosa principale per creare questa particolare trama. Abbiamo anche matplotlib.pyplot per lo stile, che puoi salvare come variabile chiamata plt .
Possiamo quindi utilizzare quella variabile per creare stili diversi per la nostra particolare trama, come l'aggiunta di titoli e dimensioni dei caratteri. La parte principale del tuo codice sarà la tua funzione di trama ECDF che introduciamo con Seaborn.
Grafico a dispersione nello script R: come creare e importare
funzioni definite dall'utente Python | Una panoramica
GGPLOT2 In R: Visualizzazioni con ESQUISSE
Conclusione
Questi erano i modi in cui puoi utilizzare diversi grafici di distribuzione, inclusi i grafici Histogram, KDE, Box e ECDF. Hai anche imparato quattro modi per presentare un grafico ECDF utilizzando lo stesso set di dati. Puoi utilizzare qualsiasi approccio a seconda delle tue preferenze.
Ricorda sempre di portare le librerie necessarie per creare la tua trama e di utilizzare la funzione giusta. Dopodiché, si tratta solo di modificare gli aspetti visivi e stilistici della tua trama come il posizionamento degli assi e le tonalità.
Ti auguro il meglio,
Cos'è il sé in Python: esempi del mondo reale
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.
Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.
In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.
Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.
Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.
Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.
Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.
Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere