Set di dati in Panda con ProfileReport() | Python in LuckyTemplates

Set di dati in Panda con ProfileReport() | Python in LuckyTemplates

Una delle domande più comuni che incontrerai come analista di dati è qual è il modo migliore per esplorare un determinato set di dati. Questa è una considerazione importante soprattutto se vuoi mettere insieme tutti i dati in un rapporto che sarà facile da interpretare da te o dal tuo team. In questo tutorial, dimostrerò come esplorare in modo efficiente i set di dati in Panda utilizzando ProfileReport(). Puoi guardare il video completo di questo tutorial in fondo a questo blog.

Quando ti viene fornito un set di dati, cosa fai? Come esplori il set di dati? In primo luogo, se vuoi mettere tutto insieme in un rapporto di facile lettura per te stesso, per i colleghi, ecc., devi considerare molte cose.

Innanzitutto, pensi a che tipo di variabili sono perché influenzerà il modo in cui le analizzi e come le tratti. Dati significa ciò che viene dato. Quindi, ciò che manca saranno i dati che non abbiamo. Un'altra cosa è visualizzare quelle relazioni. Come sono fisicamente? Vogliamo usare quel potere di visualizzazione presto e spesso.

Queste sono molte domande complesse interconnesse. La cosa buona è che è disponibile questa funzione di rapporto di profilazione che ci darà quelle risposte. Quindi, diamo un'occhiata a tutto ciò in Python.

Sommario

Esplora set di dati in Panda utilizzando la funzione ProfileReport()

Innanzitutto, caricheremo il set di dati.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Poi, da pandas_profiling , importeremo questa cosa chiamata profile report. Ora, se ricevi un errore qui, probabilmente devi installarlo. Sto usando Anaconda. Ti consiglio di usare anche quello. Eseguiamo questo, e poi stampiamolo.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Quindi eccolo qui. Abbiamo una panoramica . Questo ci dà una ripartizione dei tipi di variabili. Abbiamo le statistiche del set di dati. Vediamo il numero di colonne di riga, e così via. La cosa bella di questo rapporto è che è come uno sportello unico e ha anche un bell'aspetto. Ha una presentazione molto accattivante.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Scorriamo verso il basso qui e abbiamo le variabili . Otteniamo una visualizzazione e possiamo alternare ulteriori dettagli sulla variabile. Abbiamo bandiere che indicano cose che potrebbero essere un po' insolite. Abbiamo anche questi avvisi e molte altre funzionalità che ci forniranno maggiori informazioni. E questo è per ogni singola variabile.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Mentre continuiamo a scorrere verso il basso, troveremo Interazioni, dove vengono creati grafici a dispersione per visualizzare i dati.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

E poi, abbiamo Correlations , che riassume la relazione.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Il prossimo è Missing Values ​​, che sono molto importanti. Come puoi vedere, abbiamo alcuni valori mancanti qui e vogliamo sapere perché. Queste visualizzazioni qui hanno lo scopo di aiutarci a farlo. Possiamo fare clic su ogni elemento visivo e analizzare i dati.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Infine, abbiamo il campione. Potremmo ottenerlo in molti modi, ma tutto ciò che sta facendo è solo stampare le prime righe, il che è buono a sapersi.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates


MultiIndex in Panda per dati multilivello o gerarchici
Come caricare set di dati di esempio in Python
Python in LuckyTemplates: come installare e configurare

Conclusione

È così che esplori i set di dati in Panda utilizzando la funzione ProfileReport(). Esistono molti modi per suddividere e tagliare a dadini i dati. Pensa a tutte le combinazioni di permutazioni dei dati. Questo non sarà in grado di fare tutto per te, ma è davvero un buon inizio.

Quando esploriamo i dati, è davvero un processo iterativo. Non esiste una pillola magica unica quanto potremmo desiderarne una. Tuttavia, ProfilerReport() è davvero un ottimo strumento. Riceviamo molte informazioni e solo una riga di codice. Questo è uno strumento gratuito, quindi spero che tu possa usarlo nel tuo lavoro. Facci sapere come lo fai.

Ti auguro il meglio!


Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.

Introduzione al filtraggio del contesto in LuckyTemplates

Introduzione al filtraggio del contesto in LuckyTemplates

In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.

Idee di materializzazione per cache di dati in DAX Studio

Idee di materializzazione per cache di dati in DAX Studio

Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.

Reporting aziendale tramite LuckyTemplates

Reporting aziendale tramite LuckyTemplates

Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere