Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

L'une des questions les plus courantes que vous rencontrerez en tant qu'analyste de données est de savoir quelle est la meilleure façon d'explorer un ensemble de données donné. Il s'agit d'une considération importante, principalement si vous souhaitez rassembler toutes les données dans un rapport qui sera facile à interpréter par vous-même ou votre équipe. Dans ce didacticiel, je vais vous montrer comment vous pouvez explorer efficacement des ensembles de données dans Pandas à l'aide de ProfileReport(). Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog.

Quand on vous donne un ensemble de données, que faites-vous ? Comment explorez-vous l'ensemble de données ? En premier lieu, si vous souhaitez tout rassembler dans un rapport facile à lire pour vous-même, pour vos collègues, etc., vous devez prendre en compte de nombreux éléments.

Tout d'abord, vous pensez à quelles sortes de variables sont-elles parce que cela va influencer la façon dont vous les analysez et dont vous les traitez. Les données signifient ce qui est donné. Donc, ce qui manque, ce sont les données que nous n'avons pas. Une autre chose est de visualiser ces relations. À quoi ressemblent-ils? Nous voulons utiliser ce pouvoir de visualisation tôt et souvent.

Ce sont beaucoup de questions complexes et imbriquées. La bonne chose est qu'il existe cette fonction de rapport de profilage disponible qui nous donnera ces réponses. Alors, regardons tout cela en Python.

Table des matières

Explorer les ensembles de données dans Pandas à l'aide de la fonction ProfileReport()
Conclusion

Explorer les ensembles de données dans Pandas à l'aide de la fonction ProfileReport()

Tout d'abord, nous allons charger le jeu de données.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Ensuite, depuis pandas_profiling , nous allons importer cette chose appelée rapport de profil. Maintenant, si vous obtenez une erreur ici, vous devez probablement l'installer. J'utilise Anaconda. Je vous suggère de l'utiliser également. Exécutons ceci, puis imprimons-le.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Alors voilà. Nous avons un aperçu . Cela nous donne une répartition des types de variables. Nous avons les statistiques du jeu de données. Nous voyons le nombre de colonnes de lignes, ainsi de suite et ainsi de suite. Ce qui est bien avec ce rapport, c'est qu'il ressemble à un guichet unique et qu'il a aussi l'air vraiment sympa. Il a une présentation très attrayante.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Nous faisons défiler ici et nous avons les Variables . Nous obtenons une visualisation, et nous pouvons basculer plus de détails sur la variable. Nous avons des drapeaux qui signalent des choses qui peuvent être un peu inhabituelles. Nous avons également ces alertes et de nombreuses autres fonctionnalités qui nous fourniront plus d'informations. Et, c'est pour chaque variable.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Alors que nous continuons à faire défiler vers le bas, nous trouverons Interactions, où il est créé des nuages de points pour visualiser les données.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Et puis, nous avons Correlations , qui résume la relation.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Vient ensuite les valeurs manquantes , qui sont très importantes. Comme vous pouvez le voir, nous avons des valeurs manquantes ici et nous voulons savoir pourquoi. Ces visualisations ici sont destinées à nous aider à le faire. Nous pouvons cliquer sur chaque visuel et analyser les données.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Enfin, nous avons l'échantillon. Nous pourrions obtenir cela de plusieurs façons, mais tout cela ne fait qu'imprimer les premières lignes, ce qui est bon à savoir.

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

MultiIndex dans Pandas pour les données à plusieurs niveaux ou hiérarchiques
Comment charger des exemples de jeux de données en Python
Python dans LuckyTemplates : comment installer et configurer

Conclusion

C'est ainsi que vous explorez les ensembles de données dans Pandas à l'aide de la fonction ProfileReport(). Il existe de nombreuses façons de découper et de découper les données. Pensez à toutes les combinaisons de permutations des données. Cela ne va pas pouvoir tout faire pour vous, mais c'est un très bon début.

Lorsque nous explorons des données, c'est vraiment un processus itératif. Il n'y a pas autant de pilule magique unique que nous en voudrions. Cependant, le ProfilerReport() est vraiment un excellent outil. Nous obtenons beaucoup d'informations et une seule ligne de code. C'est un outil gratuit, j'espère donc que vous pourrez l'utiliser dans votre propre travail. Faites-nous savoir comment vous faites cela.

Tous mes vœux!

Laisser un commentaire

Gestion des erreurs dans Power Automate via le branchement parallèle

Gestion des erreurs dans Power Automate via le branchement parallèle

Découvrez l

Comparaison de tables dans Power Query | Tutoriel LuckyTemplates

Comparaison de tables dans Power Query | Tutoriel LuckyTemplates

Découvrez comment comparer facilement des tables dans Power Query pour signaler les différences et optimiser vos analyses de données.

Colonne fractionnée LuckyTemplates par délimiteurs dans DAX

$Colonne fractionnée LuckyTemplates par délimiteurs dans DAX$

Dans ce blog, vous découvrirez comment diviser les colonnes dans LuckyTemplates par délimiteurs à l'aide de DAX, une méthode efficace pour gérer des modèles de données complexes.

SELECTEDVALUE DAX Exemple - Sélection de trancheuse de récolte

SELECTEDVALUE DAX Exemple - Sélection de trancheuse de récolte

Découvrez comment récolter une valeur avec SELECTEDVALUE DAX pour des calculs dynamiques dans LuckyTemplates.

Calculer la marge en pourcentage dans LuckyTemplates à laide de DAX

Calculer la marge en pourcentage dans LuckyTemplates à laide de DAX

Calculez la marge en pourcentage à l

Modifier les formats de date à laide de léditeur Power Query

Modifier les formats de date à laide de léditeur Power Query

Dans ce didacticiel, nous allons explorer une méthode rapide pour convertir du texte en formats de date à l

Enregistrer la pièce jointe dun e-mail sur SharePoint avec Power Automate

Enregistrer la pièce jointe dun e-mail sur SharePoint avec Power Automate

Dans ce blog, vous apprendrez à enregistrer automatiquement la pièce jointe d

Comment adapter les cellules Excel au texte : 4 solutions simples

Comment adapter les cellules Excel au texte : 4 solutions simples

Découvrez comment adapter les cellules Excel au texte avec ces 4 solutions simples pour améliorer la présentation de vos données.

Générateur de rapports SSRS : formater les en-têtes dans un rapport paginé

Générateur de rapports SSRS : formater les en-têtes dans un rapport paginé

Dans ce didacticiel SSRS Report Builder, découvrez comment utiliser le générateur d

Thème de couleur dans les rapports LuckyTemplates - Conseils et techniques

Thème de couleur dans les rapports LuckyTemplates - Conseils et techniques

Découvrez les outils pour créer un thème de couleur efficace pour vos rapports LuckyTemplates et améliorer leur apparence.