Cosè il sé in Python: esempi del mondo reale
Cos'è il sé in Python: esempi del mondo reale
Una delle domande più comuni che incontrerai come analista di dati è qual è il modo migliore per esplorare un determinato set di dati. Questa è una considerazione importante soprattutto se vuoi mettere insieme tutti i dati in un rapporto che sarà facile da interpretare da te o dal tuo team. In questo tutorial, dimostrerò come esplorare in modo efficiente i set di dati in Panda utilizzando ProfileReport(). Puoi guardare il video completo di questo tutorial in fondo a questo blog.
Quando ti viene fornito un set di dati, cosa fai? Come esplori il set di dati? In primo luogo, se vuoi mettere tutto insieme in un rapporto di facile lettura per te stesso, per i colleghi, ecc., devi considerare molte cose.
Innanzitutto, pensi a che tipo di variabili sono perché influenzerà il modo in cui le analizzi e come le tratti. Dati significa ciò che viene dato. Quindi, ciò che manca saranno i dati che non abbiamo. Un'altra cosa è visualizzare quelle relazioni. Come sono fisicamente? Vogliamo usare quel potere di visualizzazione presto e spesso.
Queste sono molte domande complesse interconnesse. La cosa buona è che è disponibile questa funzione di rapporto di profilazione che ci darà quelle risposte. Quindi, diamo un'occhiata a tutto ciò in Python.
Sommario
Esplora set di dati in Panda utilizzando la funzione ProfileReport()
Innanzitutto, caricheremo il set di dati.
Poi, da pandas_profiling , importeremo questa cosa chiamata profile report. Ora, se ricevi un errore qui, probabilmente devi installarlo. Sto usando Anaconda. Ti consiglio di usare anche quello. Eseguiamo questo, e poi stampiamolo.
Quindi eccolo qui. Abbiamo una panoramica . Questo ci dà una ripartizione dei tipi di variabili. Abbiamo le statistiche del set di dati. Vediamo il numero di colonne di riga, e così via. La cosa bella di questo rapporto è che è come uno sportello unico e ha anche un bell'aspetto. Ha una presentazione molto accattivante.
Scorriamo verso il basso qui e abbiamo le variabili . Otteniamo una visualizzazione e possiamo alternare ulteriori dettagli sulla variabile. Abbiamo bandiere che indicano cose che potrebbero essere un po' insolite. Abbiamo anche questi avvisi e molte altre funzionalità che ci forniranno maggiori informazioni. E questo è per ogni singola variabile.
Mentre continuiamo a scorrere verso il basso, troveremo Interazioni, dove vengono creati grafici a dispersione per visualizzare i dati.
E poi, abbiamo Correlations , che riassume la relazione.
Il prossimo è Missing Values , che sono molto importanti. Come puoi vedere, abbiamo alcuni valori mancanti qui e vogliamo sapere perché. Queste visualizzazioni qui hanno lo scopo di aiutarci a farlo. Possiamo fare clic su ogni elemento visivo e analizzare i dati.
Infine, abbiamo il campione. Potremmo ottenerlo in molti modi, ma tutto ciò che sta facendo è solo stampare le prime righe, il che è buono a sapersi.
MultiIndex in Panda per dati multilivello o gerarchici
Come caricare set di dati di esempio in Python
Python in LuckyTemplates: come installare e configurare
Conclusione
È così che esplori i set di dati in Panda utilizzando la funzione ProfileReport(). Esistono molti modi per suddividere e tagliare a dadini i dati. Pensa a tutte le combinazioni di permutazioni dei dati. Questo non sarà in grado di fare tutto per te, ma è davvero un buon inizio.
Quando esploriamo i dati, è davvero un processo iterativo. Non esiste una pillola magica unica quanto potremmo desiderarne una. Tuttavia, ProfilerReport() è davvero un ottimo strumento. Riceviamo molte informazioni e solo una riga di codice. Questo è uno strumento gratuito, quindi spero che tu possa usarlo nel tuo lavoro. Facci sapere come lo fai.
Ti auguro il meglio!
Cos'è il sé in Python: esempi del mondo reale
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.
Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.
In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.
Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.
Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.
Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.
Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.
Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere