Set di dati in Panda con ProfileReport() | Python in LuckyTemplates

Set di dati in Panda con ProfileReport() | Python in LuckyTemplates

Una delle domande più comuni che incontrerai come analista di dati è qual è il modo migliore per esplorare un determinato set di dati. Questa è una considerazione importante soprattutto se vuoi mettere insieme tutti i dati in un rapporto che sarà facile da interpretare da te o dal tuo team. In questo tutorial, dimostrerò come esplorare in modo efficiente i set di dati in Panda utilizzando ProfileReport(). Puoi guardare il video completo di questo tutorial in fondo a questo blog.

Quando ti viene fornito un set di dati, cosa fai? Come esplori il set di dati? In primo luogo, se vuoi mettere tutto insieme in un rapporto di facile lettura per te stesso, per i colleghi, ecc., devi considerare molte cose.

Innanzitutto, pensi a che tipo di variabili sono perché influenzerà il modo in cui le analizzi e come le tratti. Dati significa ciò che viene dato. Quindi, ciò che manca saranno i dati che non abbiamo. Un'altra cosa è visualizzare quelle relazioni. Come sono fisicamente? Vogliamo usare quel potere di visualizzazione presto e spesso.

Queste sono molte domande complesse interconnesse. La cosa buona è che è disponibile questa funzione di rapporto di profilazione che ci darà quelle risposte. Quindi, diamo un'occhiata a tutto ciò in Python.

Sommario

Esplora set di dati in Panda utilizzando la funzione ProfileReport()

Innanzitutto, caricheremo il set di dati.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Poi, da pandas_profiling , importeremo questa cosa chiamata profile report. Ora, se ricevi un errore qui, probabilmente devi installarlo. Sto usando Anaconda. Ti consiglio di usare anche quello. Eseguiamo questo, e poi stampiamolo.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Quindi eccolo qui. Abbiamo una panoramica . Questo ci dà una ripartizione dei tipi di variabili. Abbiamo le statistiche del set di dati. Vediamo il numero di colonne di riga, e così via. La cosa bella di questo rapporto è che è come uno sportello unico e ha anche un bell'aspetto. Ha una presentazione molto accattivante.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Scorriamo verso il basso qui e abbiamo le variabili . Otteniamo una visualizzazione e possiamo alternare ulteriori dettagli sulla variabile. Abbiamo bandiere che indicano cose che potrebbero essere un po' insolite. Abbiamo anche questi avvisi e molte altre funzionalità che ci forniranno maggiori informazioni. E questo è per ogni singola variabile.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Mentre continuiamo a scorrere verso il basso, troveremo Interazioni, dove vengono creati grafici a dispersione per visualizzare i dati.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

E poi, abbiamo Correlations , che riassume la relazione.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Il prossimo è Missing Values ​​, che sono molto importanti. Come puoi vedere, abbiamo alcuni valori mancanti qui e vogliamo sapere perché. Queste visualizzazioni qui hanno lo scopo di aiutarci a farlo. Possiamo fare clic su ogni elemento visivo e analizzare i dati.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates

Infine, abbiamo il campione. Potremmo ottenerlo in molti modi, ma tutto ciò che sta facendo è solo stampare le prime righe, il che è buono a sapersi.

Set di dati in Panda con ProfileReport() |  Python in LuckyTemplates


MultiIndex in Panda per dati multilivello o gerarchici
Come caricare set di dati di esempio in Python
Python in LuckyTemplates: come installare e configurare

Conclusione

È così che esplori i set di dati in Panda utilizzando la funzione ProfileReport(). Esistono molti modi per suddividere e tagliare a dadini i dati. Pensa a tutte le combinazioni di permutazioni dei dati. Questo non sarà in grado di fare tutto per te, ma è davvero un buon inizio.

Quando esploriamo i dati, è davvero un processo iterativo. Non esiste una pillola magica unica quanto potremmo desiderarne una. Tuttavia, ProfilerReport() è davvero un ottimo strumento. Riceviamo molte informazioni e solo una riga di codice. Questo è uno strumento gratuito, quindi spero che tu possa usarlo nel tuo lavoro. Facci sapere come lo fai.

Ti auguro il meglio!


Power Automate si applica a ogni azione nei flussi di lavoro

Power Automate si applica a ogni azione nei flussi di lavoro

Scopri l

Tecniche di modellazione dei dati per organizzare le misure DAX

Tecniche di modellazione dei dati per organizzare le misure DAX

Tecniche di modellazione dei dati per organizzare meglio le misure DAX per un flusso di lavoro più efficiente.

Filtro Power Apps: cosè e come si usa?

Filtro Power Apps: cosè e come si usa?

Scopri come utilizzare la funzione di filtro in Power Apps e come incorporarla nelle formule esistenti all

Come commentare più righe in Python: una guida semplice e veloce

Come commentare più righe in Python: una guida semplice e veloce

Come commentare più righe in Python: una guida semplice e veloce

Connettori Power Automate: numero, testo e data e ora

Connettori Power Automate: numero, testo e data e ora

Acquisisci familiarità con i connettori Power Automate per la manipolazione di numeri, testo e date/ore.

Budget Vs Actual Vs Last Year - Suggerimenti per la rendicontazione finanziaria

Budget Vs Actual Vs Last Year - Suggerimenti per la rendicontazione finanziaria

Ora, è molto facile studiare il budget rispetto all

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo articolo tratta anche come importare oggetti da R a LuckyTemplates.

Che cosè Power Query e M Language: una panoramica dettagliata

Che cosè Power Query e M Language: una panoramica dettagliata

Scopri tutto su Power Query e il linguaggio M per la trasformazione e la preparazione dei dati nel desktop di LuckyTemplates.

Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.