Fonction Seaborn en Python pour visualiser la distribution dune variable

Lorsque vous travaillez avec un ensemble de données composé de plusieurs variables, il est préférable de pouvoir comprendre comment celles-ci diffèrent et interagissent les unes avec les autres. Dans ce didacticiel, je vais vous montrer comment utiliser la fonction Seaborn en Python pour visualiser des alternatives à la distribution d'une variable. Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog.

Table des matières

Utilisation de la fonction Seaborn en Python
Conclusion

Utilisation de la fonction Seaborn en Python

Je vais le démontrer sur l'ensemble de données MPG, qui est disponible dans Seaborn. Alors, allons-y et importons tous les packages dont nous avons besoin ainsi que toutes les données dont nous avons besoin. Nous allons examiner ici la distribution de la variable MPG et comment elle varie. Les deux façons courantes de le faire sont l'histogramme et le boxplot .

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Je vais donc utiliser la fonction displot (DIS pour distribution). Ensuite, je dois spécifier de quel ensemble de données il s'agit et quelle variable nous allons mettre sur l'axe X. Et avec cela, nous avons la distribution.

C'est plutôt bien. C'est très facile de voir toute la distribution et la forme. Quelques lacunes avec cette visualisation de la distribution cependant. La première est que le nombre de bacs que nous utilisons est sans doute arbitraire. L'autre chose est que nous ne pouvons pas nécessairement savoir instantanément quelle est la moyenne de la variable.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

La bonne chose avec Seaborn est qu'une fois que j'ai configuré la variable que je veux, où et quel ensemble de données j'utilise, c'est vraiment plug-and-chug avec la création d'une nouvelle visualisation. Nous allons maintenant passer au boxplot. Boxplot n'utilise pas de bacs.

L'idée ici est que nous pouvons voir très clairement la valeur du quartile, la médiane en particulier, et nous voyons les autres valeurs du quartile. Nous voyons qu'il y a une valeur aberrante, et c'est un graphique très précis. Le boxplot du problème est qu'il est précis avec des choses dont beaucoup d'utilisateurs professionnels ne se soucient probablement pas.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Donc, cette intrigue est un peu difficile pour les non-statisticiens d'obtenir vraiment beaucoup de valeur. Et encore une fois, il agrège les données, donc nous perdons beaucoup de détails. Difficile de savoir exactement à quoi cela ressemble. Nous pouvons voir qu'il y a une valeur aberrante. Nous pouvons voir que la plupart des valeurs sont ici. L'histogramme nous donne une façon plus intuitive de voir cela.

Ce sont deux bonnes parcelles. Ils ont tous deux leurs objectifs. Regardons quelques alternatives utilisant Seaborn pour visualiser. Nous allons nous en tenir à MPG pour la distribution de cette variable.

Semblable à la boîte à moustaches, vous pouvez voir ici que la médiane est clairement marquée. Nous voyons également la plage des quartiles et nous pouvons mieux voir quelle est la distribution globale. C'est un peu comme un histogramme aussi. C'est ce qu'on appelle un graphique d'estimation de la densité du noyau ou un graphique KDE. C'est une version lisse de l'histogramme. Nous n'utilisons aucun regroupement arbitraire. Tout est lissé dans une gamme continue ici.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

C'est en quelque sorte un hybride de ces deux approches et corrige vraiment certaines des lacunes. Cependant, selon votre public, ils pourraient vraiment avoir du mal à regarder cela. Ils n'y sont peut-être pas habitués, mais cela présente certains avantages par rapport aux approches traditionnelles.

Dans cette approche, nous n'agrégons plus les données. Chaque point individuel est tracé. Cela prend des éléments du nuage de points, n'est-ce pas ? Si vous pensez à un nuage de points, nous traçons chaque point individuel sur les coordonnées X et Y.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Enfin, nous avons le stripplot . Ce que nous faisons ici, c'est prendre cette distribution et nous dispersons au hasard. Il s'agit d'un processus aléatoire. Nous n'essayons plus de façonner cette distribution. Le problème avec cela est que nous avons tous ces amas qui se rencontrent, donc cela pourrait ne pas être bon selon ce que vous essayez de faire. Peut-être que vous voulez les colorer par groupe ou quelque chose comme ça, il y a donc une option pour cela.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Nous pouvons changer la gigue à 0,25 et voir qu'à mesure que nous augmentons la gigue, ces points s'étalent un peu plus.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Cependant, chaque fois que je les exécute, ils vont avoir un aspect légèrement différent. Donc, si vous voulez vous débarrasser de cela et le rendre identique à chaque fois, vous pouvez importer numpy en tant que np . Ce que cela fait, c'est ce qu'on appelle définir une graine aléatoire.

Chaque fois que j'exécute quelque chose qui a à voir avec des nombres aléatoires, il va utiliser les mêmes nombres aléatoires. Les choses ne changent pas au hasard lorsque vous le réexécutez. Cela pourrait être bon pour tout type de simulation que vous faites, ce qui se produit également beaucoup dans la science des données et l'analyse avec cette visualisation. Alors maintenant, chaque fois que je lance ce tracé, nous allons avoir le même aspect de cela.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Je peux également ajouter ici l'origine Y, et maintenant nous voyons que nous créons une distribution bi-variante. Nous prenons la répartition du kilométrage et la segmentons par origine.

Fonction Seaborn en Python pour visualiser la distribution d'une variable

Comment utiliser le script Python dans LuckyTemplates
Script Python dans
les jeux de données de rapports de données LuckyTemplates dans Pandas avec ProfileReport() | Python dans LuckyTemplates

Conclusion

Ce sont des alternatives à la visualisation des distributions d'une variable. Ils ont tous leurs avantages et leurs inconvénients. Cela ne veut pas dire qu'il ne faut jamais utiliser la boîte à moustaches ou l'histogramme, mais cela signifie simplement qu'il existe d'autres options, en fonction de ce que vous essayez de montrer.

Ils sont tous à peu près aussi faciles à créer que n'importe lequel des autres lorsque nous utilisons la fonction Seaborn en Python. Si vous voulez en savoir plus sur Python , consultez les liens ci-dessous.

Tous mes vœux!

Laisser un commentaire

Gestion des erreurs dans Power Automate via le branchement parallèle

Gestion des erreurs dans Power Automate via le branchement parallèle

Découvrez l

Comparaison de tables dans Power Query | Tutoriel LuckyTemplates

Comparaison de tables dans Power Query | Tutoriel LuckyTemplates

Découvrez comment comparer facilement des tables dans Power Query pour signaler les différences et optimiser vos analyses de données.

Colonne fractionnée LuckyTemplates par délimiteurs dans DAX

$Colonne fractionnée LuckyTemplates par délimiteurs dans DAX$

Dans ce blog, vous découvrirez comment diviser les colonnes dans LuckyTemplates par délimiteurs à l'aide de DAX, une méthode efficace pour gérer des modèles de données complexes.

SELECTEDVALUE DAX Exemple - Sélection de trancheuse de récolte

SELECTEDVALUE DAX Exemple - Sélection de trancheuse de récolte

Découvrez comment récolter une valeur avec SELECTEDVALUE DAX pour des calculs dynamiques dans LuckyTemplates.

Calculer la marge en pourcentage dans LuckyTemplates à laide de DAX

Calculer la marge en pourcentage dans LuckyTemplates à laide de DAX

Calculez la marge en pourcentage à l

Modifier les formats de date à laide de léditeur Power Query

Modifier les formats de date à laide de léditeur Power Query

Dans ce didacticiel, nous allons explorer une méthode rapide pour convertir du texte en formats de date à l

Enregistrer la pièce jointe dun e-mail sur SharePoint avec Power Automate

Enregistrer la pièce jointe dun e-mail sur SharePoint avec Power Automate

Dans ce blog, vous apprendrez à enregistrer automatiquement la pièce jointe d

Comment adapter les cellules Excel au texte : 4 solutions simples

Comment adapter les cellules Excel au texte : 4 solutions simples

Découvrez comment adapter les cellules Excel au texte avec ces 4 solutions simples pour améliorer la présentation de vos données.

Générateur de rapports SSRS : formater les en-têtes dans un rapport paginé

Générateur de rapports SSRS : formater les en-têtes dans un rapport paginé

Dans ce didacticiel SSRS Report Builder, découvrez comment utiliser le générateur d

Thème de couleur dans les rapports LuckyTemplates - Conseils et techniques

Thème de couleur dans les rapports LuckyTemplates - Conseils et techniques

Découvrez les outils pour créer un thème de couleur efficace pour vos rapports LuckyTemplates et améliorer leur apparence.