Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Ensembles de données dans Pandas avec ProfileReport() | Python dans LuckyTemplates

L'une des questions les plus courantes que vous rencontrerez en tant qu'analyste de données est de savoir quelle est la meilleure façon d'explorer un ensemble de données donné. Il s'agit d'une considération importante, principalement si vous souhaitez rassembler toutes les données dans un rapport qui sera facile à interpréter par vous-même ou votre équipe. Dans ce didacticiel, je vais vous montrer comment vous pouvez explorer efficacement des ensembles de données dans Pandas à l'aide de ProfileReport(). Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog.

Quand on vous donne un ensemble de données, que faites-vous ? Comment explorez-vous l'ensemble de données ? En premier lieu, si vous souhaitez tout rassembler dans un rapport facile à lire pour vous-même, pour vos collègues, etc., vous devez prendre en compte de nombreux éléments.

Tout d'abord, vous pensez à quelles sortes de variables sont-elles parce que cela va influencer la façon dont vous les analysez et dont vous les traitez. Les données signifient ce qui est donné. Donc, ce qui manque, ce sont les données que nous n'avons pas. Une autre chose est de visualiser ces relations. À quoi ressemblent-ils? Nous voulons utiliser ce pouvoir de visualisation tôt et souvent.

Ce sont beaucoup de questions complexes et imbriquées. La bonne chose est qu'il existe cette fonction de rapport de profilage disponible qui nous donnera ces réponses. Alors, regardons tout cela en Python.

Table des matières

Explorer les ensembles de données dans Pandas à l'aide de la fonction ProfileReport()

Tout d'abord, nous allons charger le jeu de données.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates

Ensuite, depuis pandas_profiling , nous allons importer cette chose appelée rapport de profil. Maintenant, si vous obtenez une erreur ici, vous devez probablement l'installer. J'utilise Anaconda. Je vous suggère de l'utiliser également. Exécutons ceci, puis imprimons-le.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates

Alors voilà. Nous avons un aperçu . Cela nous donne une répartition des types de variables. Nous avons les statistiques du jeu de données. Nous voyons le nombre de colonnes de lignes, ainsi de suite et ainsi de suite. Ce qui est bien avec ce rapport, c'est qu'il ressemble à un guichet unique et qu'il a aussi l'air vraiment sympa. Il a une présentation très attrayante.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates

Nous faisons défiler ici et nous avons les Variables . Nous obtenons une visualisation, et nous pouvons basculer plus de détails sur la variable. Nous avons des drapeaux qui signalent des choses qui peuvent être un peu inhabituelles. Nous avons également ces alertes et de nombreuses autres fonctionnalités qui nous fourniront plus d'informations. Et, c'est pour chaque variable.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates

Alors que nous continuons à faire défiler vers le bas, nous trouverons Interactions, où il est créé des nuages ​​de points pour visualiser les données.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates

Et puis, nous avons Correlations , qui résume la relation.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates

Vient ensuite les valeurs manquantes , qui sont très importantes. Comme vous pouvez le voir, nous avons des valeurs manquantes ici et nous voulons savoir pourquoi. Ces visualisations ici sont destinées à nous aider à le faire. Nous pouvons cliquer sur chaque visuel et analyser les données.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates

Enfin, nous avons l'échantillon. Nous pourrions obtenir cela de plusieurs façons, mais tout cela ne fait qu'imprimer les premières lignes, ce qui est bon à savoir.

Ensembles de données dans Pandas avec ProfileReport() |  Python dans LuckyTemplates


MultiIndex dans Pandas pour les données à plusieurs niveaux ou hiérarchiques
Comment charger des exemples de jeux de données en Python
Python dans LuckyTemplates : comment installer et configurer

Conclusion

C'est ainsi que vous explorez les ensembles de données dans Pandas à l'aide de la fonction ProfileReport(). Il existe de nombreuses façons de découper et de découper les données. Pensez à toutes les combinaisons de permutations des données. Cela ne va pas pouvoir tout faire pour vous, mais c'est un très bon début.

Lorsque nous explorons des données, c'est vraiment un processus itératif. Il n'y a pas autant de pilule magique unique que nous en voudrions. Cependant, le ProfilerReport() est vraiment un excellent outil. Nous obtenons beaucoup d'informations et une seule ligne de code. C'est un outil gratuit, j'espère donc que vous pourrez l'utiliser dans votre propre travail. Faites-nous savoir comment vous faites cela.

Tous mes vœux!


Quest-ce que le self en Python ? Exemples concrets

Quest-ce que le self en Python ? Exemples concrets

Qu'est-ce que le self en Python ? Exemples concrets

Comment enregistrer et charger un fichier RDS dans R

Comment enregistrer et charger un fichier RDS dans R

Vous apprendrez à enregistrer et à charger des objets à partir d'un fichier .rds dans R. Ce blog expliquera également comment importer des objets de R vers LuckyTemplates.

First N Business Days Revisited - Une solution de langage de codage DAX

First N Business Days Revisited - Une solution de langage de codage DAX

Dans ce didacticiel sur le langage de codage DAX, découvrez comment utiliser la fonction GENERATE et comment modifier dynamiquement le titre d'une mesure.

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Ce didacticiel explique comment utiliser la technique Multi Threaded Dynamic Visuals pour créer des informations à partir de visualisations de données dynamiques dans vos rapports.

Introduction au filtrage du contexte dans LuckyTemplates

Introduction au filtrage du contexte dans LuckyTemplates

Dans cet article, je vais parcourir le contexte du filtre. Le contexte de filtrage est l'un des principaux sujets que tout utilisateur de LuckyTemplates doit d'abord connaître.

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Je souhaite montrer comment le service en ligne LuckyTemplates Apps peut aider à gérer différents rapports et informations générés à partir de diverses sources.

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Découvrez comment calculer les modifications de votre marge bénéficiaire à l'aide de techniques telles que la création de branches de mesure et la combinaison de formules DAX dans LuckyTemplates.

Idées de matérialisation pour les caches de données dans DAX Studio

Idées de matérialisation pour les caches de données dans DAX Studio

Ce didacticiel abordera les idées de matérialisation des caches de données et comment elles affectent les performances des DAX dans la fourniture de résultats.

Rapports dentreprise à laide de LuckyTemplates

Rapports dentreprise à laide de LuckyTemplates

Si vous utilisez encore Excel jusqu'à présent, c'est le meilleur moment pour commencer à utiliser LuckyTemplates pour vos besoins en matière de rapports commerciaux.

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Qu'est-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir