Fonction Seaborn en Python pour visualiser la distribution dune variable

Fonction Seaborn en Python pour visualiser la distribution dune variable

Lorsque vous travaillez avec un ensemble de données composé de plusieurs variables, il est préférable de pouvoir comprendre comment celles-ci diffèrent et interagissent les unes avec les autres. Dans ce didacticiel, je vais vous montrer comment utiliser la fonction Seaborn en Python pour visualiser des alternatives à la distribution d'une variable. Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog.

Table des matières

Utilisation de la fonction Seaborn en Python

Je vais le démontrer sur l'ensemble de données MPG, qui est disponible dans Seaborn. Alors, allons-y et importons tous les packages dont nous avons besoin ainsi que toutes les données dont nous avons besoin. Nous allons examiner ici la distribution de la variable MPG et comment elle varie. Les deux façons courantes de le faire sont l'histogramme et le boxplot .

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Je vais donc utiliser la fonction displot (DIS pour distribution). Ensuite, je dois spécifier de quel ensemble de données il s'agit et quelle variable nous allons mettre sur l'axe X. Et avec cela, nous avons la distribution.

C'est plutôt bien. C'est très facile de voir toute la distribution et la forme. Quelques lacunes avec cette visualisation de la distribution cependant. La première est que le nombre de bacs que nous utilisons est sans doute arbitraire. L'autre chose est que nous ne pouvons pas nécessairement savoir instantanément quelle est la moyenne de la variable.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

La bonne chose avec Seaborn est qu'une fois que j'ai configuré la variable que je veux, où et quel ensemble de données j'utilise, c'est vraiment plug-and-chug avec la création d'une nouvelle visualisation. Nous allons maintenant passer au boxplot. Boxplot n'utilise pas de bacs.

L'idée ici est que nous pouvons voir très clairement la valeur du quartile, la médiane en particulier, et nous voyons les autres valeurs du quartile. Nous voyons qu'il y a une valeur aberrante, et c'est un graphique très précis. Le boxplot du problème est qu'il est précis avec des choses dont beaucoup d'utilisateurs professionnels ne se soucient probablement pas.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Donc, cette intrigue est un peu difficile pour les non-statisticiens d'obtenir vraiment beaucoup de valeur. Et encore une fois, il agrège les données, donc nous perdons beaucoup de détails. Difficile de savoir exactement à quoi cela ressemble. Nous pouvons voir qu'il y a une valeur aberrante. Nous pouvons voir que la plupart des valeurs sont ici. L'histogramme nous donne une façon plus intuitive de voir cela.

Ce sont deux bonnes parcelles. Ils ont tous deux leurs objectifs. Regardons quelques alternatives utilisant Seaborn pour visualiser. Nous allons nous en tenir à MPG pour la distribution de cette variable.

Semblable à la boîte à moustaches, vous pouvez voir ici que la médiane est clairement marquée. Nous voyons également la plage des quartiles et nous pouvons mieux voir quelle est la distribution globale. C'est un peu comme un histogramme aussi. C'est ce qu'on appelle un graphique d'estimation de la densité du noyau ou un graphique KDE. C'est une version lisse de l'histogramme. Nous n'utilisons aucun regroupement arbitraire. Tout est lissé dans une gamme continue ici.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

C'est en quelque sorte un hybride de ces deux approches et corrige vraiment certaines des lacunes. Cependant, selon votre public, ils pourraient vraiment avoir du mal à regarder cela. Ils n'y sont peut-être pas habitués, mais cela présente certains avantages par rapport aux approches traditionnelles.

Dans cette approche, nous n'agrégons plus les données. Chaque point individuel est tracé. Cela prend des éléments du nuage de points, n'est-ce pas ? Si vous pensez à un nuage de points, nous traçons chaque point individuel sur les coordonnées X et Y.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Enfin, nous avons le stripplot . Ce que nous faisons ici, c'est prendre cette distribution et nous dispersons au hasard. Il s'agit d'un processus aléatoire. Nous n'essayons plus de façonner cette distribution. Le problème avec cela est que nous avons tous ces amas qui se rencontrent, donc cela pourrait ne pas être bon selon ce que vous essayez de faire. Peut-être que vous voulez les colorer par groupe ou quelque chose comme ça, il y a donc une option pour cela.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Nous pouvons changer la gigue à 0,25 et voir qu'à mesure que nous augmentons la gigue, ces points s'étalent un peu plus.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Cependant, chaque fois que je les exécute, ils vont avoir un aspect légèrement différent. Donc, si vous voulez vous débarrasser de cela et le rendre identique à chaque fois, vous pouvez importer numpy en tant que np . Ce que cela fait, c'est ce qu'on appelle définir une graine aléatoire.

Chaque fois que j'exécute quelque chose qui a à voir avec des nombres aléatoires, il va utiliser les mêmes nombres aléatoires. Les choses ne changent pas au hasard lorsque vous le réexécutez. Cela pourrait être bon pour tout type de simulation que vous faites, ce qui se produit également beaucoup dans la science des données et l'analyse avec cette visualisation. Alors maintenant, chaque fois que je lance ce tracé, nous allons avoir le même aspect de cela.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Je peux également ajouter ici l'origine Y, et maintenant nous voyons que nous créons une distribution bi-variante. Nous prenons la répartition du kilométrage et la segmentons par origine.

Fonction Seaborn en Python pour visualiser la distribution d'une variable


Comment utiliser le script Python dans LuckyTemplates
Script Python dans
les jeux de données de rapports de données LuckyTemplates dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Conclusion

Ce sont des alternatives à la visualisation des distributions d'une variable. Ils ont tous leurs avantages et leurs inconvénients. Cela ne veut pas dire qu'il ne faut jamais utiliser la boîte à moustaches ou l'histogramme, mais cela signifie simplement qu'il existe d'autres options, en fonction de ce que vous essayez de montrer.

Ils sont tous à peu près aussi faciles à créer que n'importe lequel des autres lorsque nous utilisons la fonction Seaborn en Python. Si vous voulez en savoir plus sur Python , consultez les liens ci-dessous.

Tous mes vœux!


Quest-ce que le self en Python ? Exemples concrets

Quest-ce que le self en Python ? Exemples concrets

Qu'est-ce que le self en Python ? Exemples concrets

Comment enregistrer et charger un fichier RDS dans R

Comment enregistrer et charger un fichier RDS dans R

Vous apprendrez à enregistrer et à charger des objets à partir d'un fichier .rds dans R. Ce blog expliquera également comment importer des objets de R vers LuckyTemplates.

First N Business Days Revisited - Une solution de langage de codage DAX

First N Business Days Revisited - Une solution de langage de codage DAX

Dans ce didacticiel sur le langage de codage DAX, découvrez comment utiliser la fonction GENERATE et comment modifier dynamiquement le titre d'une mesure.

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Ce didacticiel explique comment utiliser la technique Multi Threaded Dynamic Visuals pour créer des informations à partir de visualisations de données dynamiques dans vos rapports.

Introduction au filtrage du contexte dans LuckyTemplates

Introduction au filtrage du contexte dans LuckyTemplates

Dans cet article, je vais parcourir le contexte du filtre. Le contexte de filtrage est l'un des principaux sujets que tout utilisateur de LuckyTemplates doit d'abord connaître.

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Je souhaite montrer comment le service en ligne LuckyTemplates Apps peut aider à gérer différents rapports et informations générés à partir de diverses sources.

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Découvrez comment calculer les modifications de votre marge bénéficiaire à l'aide de techniques telles que la création de branches de mesure et la combinaison de formules DAX dans LuckyTemplates.

Idées de matérialisation pour les caches de données dans DAX Studio

Idées de matérialisation pour les caches de données dans DAX Studio

Ce didacticiel abordera les idées de matérialisation des caches de données et comment elles affectent les performances des DAX dans la fourniture de résultats.

Rapports dentreprise à laide de LuckyTemplates

Rapports dentreprise à laide de LuckyTemplates

Si vous utilisez encore Excel jusqu'à présent, c'est le meilleur moment pour commencer à utiliser LuckyTemplates pour vos besoins en matière de rapports commerciaux.

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Qu'est-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir