Corrélation Python : Guide pour la création de visuels

Corrélation Python : Guide pour la création de visuels

Dans le blog d'aujourd'hui, nous allons parcourir le processus de visualisation de la corrélation Python et comment importer ces visuels dans LuckyTemplates. Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog.

Table des matières

Comprendre les corrélations

Voici une belle image montrant les différents types de corrélations. 

Corrélation Python : Guide pour la création de visuels

En partant de la gauche, nous avons la corrélation positive parfaite , ce qui signifie qu'elle a une valeur de corrélation de 1. Ensuite, elle est suivie de corrélations positives dans l'ordre décroissant menant à 0. 

Le graphique du milieu ne montre aucune corrélation suggérant une valeur de corrélation égale à 0. 

Enfin, le côté droit présente des valeurs de corrélations négatives décroissantes à partir de 0. Le graphique le plus à droite est la corrélation négative parfaite qui a une valeur de corrélation de -1.

Packages pour la corrélation Python

Nous utiliserons quatre packages pour ce tutoriel. Notre premier package est Pandas à utiliser pour la manipulation de données et enregistré en tant que variable pd

Pour la visualisation, nous utiliserons Matplotlib , enregistré en tant que variable plt pour une utilisation plus facile de ces fonctions. Seaborn , notre bibliothèque de visualisation statistique, sera enregistrée en tant que sns . Et enfin, Numpy , à enregistrer sous np , sera utilisé pour l'algèbre linéaire. 

Corrélation Python : Guide pour la création de visuels

Pour les données, nous utiliserons un exemple de jeu de données dans Seaborn. Ensuite, en utilisant la variable sns, nous apporterons l' ensemble de données de diamants comme indiqué ci-dessous. .

Corrélation Python : Guide pour la création de visuels

Attributs des données

Nous pouvons afficher les attributs de nos données en utilisant la fonction dataset.info . Cette fonction nous montre tous les différents types de données comme on le voit dans la dernière colonne ci-dessous.

Corrélation Python : Guide pour la création de visuels

Notez que la corrélation ne fonctionne que sur les variables numériques, nous allons donc regarder les variables numériques la plupart du temps. Cependant, nous apprendrons également à utiliser certaines des variables catégorielles pour la visualisation. 

L'ensemble de données de corrélation Python

En utilisant la fonction head écrite comme dataset.head , nous pouvons obtenir les cinq premières lignes de nos données qui devraient ressembler à ceci.

Corrélation Python : Guide pour la création de visuels

Nous avons carat dans la première colonne, suivis des variables catégorielles cut , color , et clearness , puis des valeurs numériques pour le reste des données. 

Corrélation Python : création d'un nuage de points

Lors de la visualisation des corrélations et de l'examen de deux variables, nous examinons généralement les nuages ​​de points

Ainsi, à l'aide de la bibliothèque Seaborn, nous avons créé notre nuage de points à l'aide de la fonction de nuage de points où nous avons transmis les données que nous avons enregistrées ci-dessus en tant que data=dataset . Ensuite, nous avons identifié les variables X et Y, carat et prix , respectivement. 

Corrélation Python : Guide pour la création de visuels

Voici notre nuage de points réalisé avec la bibliothèque Seaborn. 

Corrélation Python : Guide pour la création de visuels

Vous pouvez voir que ce nuage de points est assez dense. C'est parce que nous avons environ 54 000 lignes de données et que les points ne sont pas nécessairement représentés de la meilleure façon.

Nous pouvons appuyer sur les touches Maj + Tab pour voir les différentes façons de styliser le nuage de points. Il nous montrera une liste de différents paramètres que nous pouvons ajouter à notre nuage de points. 

Corrélation Python : Guide pour la création de visuels

Faire défiler plus bas nous donnera des informations sur ce que fait chacun des paramètres répertoriés. 

Corrélation Python : Guide pour la création de visuels

Paramètres supplémentaires du nuage de points

Plongeons un peu. Nous pouvons rendre la largeur de ligne = 0 car les lignes blanches de notre premier nuage de points, illustrées ci-dessous, obscurcissent quelque peu les choses. 

Corrélation Python : Guide pour la création de visuels

Nous voulons également ajuster l'alpha afin de pouvoir contrôler l'opacité. Utilisons alpha=0.2 pour notre exemple. Mais bien sûr, vous pouvez également changer cela en 0,1. 

Corrélation Python : Guide pour la création de visuels

Si nous ajoutons ces paramètres et cliquons sur Exécuter , vous pouvez voir que notre nuage de points devient plus opaque sans les lignes blanches. 

Corrélation Python : Guide pour la création de visuels

Vous pouvez jouer avec les paramètres pour obtenir le meilleur visuel que vous recherchez. 

Utilisation des variables qualitatives

Nous pouvons également utiliser certaines de nos variables catégorielles pour améliorer nos visuels. Par exemple, nous savons que nos données ont une coupe pour notre diamant. 

Ce que nous pouvons faire est de passer dans cette catégorie de coupe en utilisant le paramètre hue comme hue='cut'. Cela nous permettra de visualiser ces points en changeant les couleurs. 

Corrélation Python : Guide pour la création de visuels

Bien sûr, nous pouvons ajouter plus de paramètres comme l'alpha, par exemple. Nous pouvons ajouter cela à nouveau, défini sur 0,2, et voir comment cela change le visuel. Cliquons sur Exécuter et vous pouvez voir une petite différence. 

Corrélation Python : Guide pour la création de visuels

Nous pouvons jouer avec les paramètres pour obtenir le visuel que nous recherchons. Nous pouvons également utiliser différentes catégories telles que la clarté, qui nous donne les catégories de clarté et nous donne également une vue légèrement différente de cette dispersion.

Corrélation Python : Guide pour la création de visuels

Corrélation avec d'autres variables

Vous pouvez également être intéressé par la façon dont d'autres valeurs sont corrélées autres que le prix et le carat. Donc, si nous regardons un nuage de points pour table , qui est la dimension numérique de ce diamant et de  la profondeur , nous pouvons voir qu'il n'y a pas de relation linéaire un à un.

Corrélation Python : Guide pour la création de visuels

Nous pouvons également examiner deux autres variables telles que la profondeur et le prix . Sur la base du graphique, nous pouvons voir que les données sont centrées autour de la zone médiane.

Corrélation Python : Guide pour la création de visuels

Corrélation Python : création d'un graphique de régression

Passons à ce que nous appelons un diagramme de régression qui nous permet d'évaluer la relation linéaire entre deux variables. 

Ainsi, au lieu de la fonction nuage de points, nous utiliserons cette fois la fonction regplot . Nous allons passer dans la même structure — nos données puis les variables X et Y. 

Corrélation Python : Guide pour la création de visuels

Le résultat montre une ligne qui mesure la relation linéaire entre les variables. Il est également évident que nos valeurs tournent autour de cette ligne de régression.

Corrélation Python : Guide pour la création de visuels

Ce n'est pas un très beau visuel pour le moment, mais on peut encore l'optimiser pour en obtenir un meilleur. Par exemple, nous pouvons transmettre un style en utilisant la variable Matplotlib. Nous pouvons changer le style en arrière-plan sombre en utilisant le code plt.style.use('dark_background'). 

Corrélation Python : Guide pour la création de visuels

Prenez ce même graphique de régression et transmettez quelques mots-clés pour notre nuage de points et notre ligne. Utilisons la couleur rouge et une largeur de ligne de 1 pour notre ligne de régression. Cela s'écrit line_kws={“color” : “red”, 'linewidth' : 1). 

Pour nos mots-clés scatter, définissons la couleur sur blanc, la couleur des bords sur gris et l'opacité sur 0,4 à écrire sous la forme scatter_kws={“color” : “white”, 'edgecolor' : 'grey', 'alpha' : 0.4 ). 

Corrélation Python : Guide pour la création de visuels

Ces paramètres nous donnent un peu une vue différente montrée ci-dessous. 

Corrélation Python : Guide pour la création de visuels

Corrélation Python : création d'une matrice de corrélation

Jusqu'à présent, nous avons examiné des diagrammes de dispersion avec seulement deux variables, mais nous pouvons également souhaiter examiner toutes nos corrélations de variables.

Ceci est effectué à l'aide de notre ensemble de données avec une fonction de trame de données appelée corrélation représentée par dataset.corr. Et ce que nous obtiendrons est une matrice qui nous montre des corrélations sur chacune de ces variables. 

Corrélation Python : Guide pour la création de visuels

Les chiffres du tableau ci-dessus représentent la corrélation de Pearson , qui se concentre sur la relation linéaire entre toutes ces variables. 

Mais si nous ne savons pas si nos variables sont entièrement corrélées linéairement, nous pouvons utiliser un autre type de corrélation qui se concentre davantage sur l'impact que la partie linéaire. C'est ce qu'on appelle une corrélation de Spearman

Corrélation Python : Guide pour la création de visuels

Et nous pouvons voir des informations sur toutes ces choses en appuyant sur Maj + Tab. Si vous faites défiler vers le bas, nous pouvons voir la corrélation de rang de Spearman, le coefficient de corrélation de Pearson et de nombreuses façons différentes de mesurer nos données. 

Corrélation Python : Guide pour la création de visuels

En revenant à notre matrice de corrélation plus tôt, nous savons que le prix et le carat sont assez bien corrélés.

Corrélation Python : Guide pour la création de visuels

Ils proviennent de notre graphique ici montrant qu'ils sont assez linéaires à 0,92. 

Corrélation Python : Guide pour la création de visuels

Maintenant, si nous utilisons la corrélation de Spearman à la place, l'impact ou le rang sera un peu plus élevé à 0,96.

Corrélation Python : Guide pour la création de visuels

Ces différents types de corrélations nous permettent de relever différents attributs de corrélation entre ces variables. 

Corrélation variable multiple x unique

Parfois, nous ne voulons pas voir une matrice parce que nous sommes plus préoccupés par la corrélation de toutes les variables avec une seule variable (par exemple, le prix).

Ce que nous pouvons faire alors est d'isoler le prix en utilisant dataset.corr suivi de 'price'

Corrélation Python : Guide pour la création de visuels

Maintenant, nous pouvons voir que le prix est corrélé avec toutes nos différentes variables numériques dans ce tableau. Et la raison pour laquelle nous voudrions peut-être faire cela est pour les tracés visuels. 

Regardons donc la visualisation de notre matrice de corrélation avec une carte thermique.

Corrélation Python : création d'une carte thermique

Nous pouvons transmettre cette variable de corrélation dans une carte thermique Seaborn à l'aide de la fonction sns.heatmap.

Corrélation Python : Guide pour la création de visuels

Cela nous donnera une carte thermique qui ressemble à ceci.

Corrélation Python : Guide pour la création de visuels

Encore une fois, nous pouvons ajouter des paramètres à notre préférence. Nous pouvons passer le paramètre linewidths=1 et ajouter des annotations en utilisant annot=True

Corrélation Python : Guide pour la création de visuels

Et vous pouvez voir que notre carte thermique est maintenant très différente. En ce moment, nous avons une assez belle carte thermique. 

Corrélation Python : Guide pour la création de visuels

On voit l'utilité d'ajouter les lignes et les annotations. Encore une fois, si nous appuyons sur Maj + Tab, tous les différents paramètres qui peuvent entrer dans cela apparaîtront. 

Ensuite, essayez d'ajouter method='spearman ' dans notre code, ainsi vous saurez comment utiliser un type de corrélation différent selon votre cas d'utilisation. 

Corrélation Python : Guide pour la création de visuels

Carte thermique avec une variable

Ensuite, nous isolons une variable et créons une carte thermique avec la corrélation allant du négatif au positif.

Corrélation Python : Guide pour la création de visuels

Cela nous donnera cette carte thermique ci-dessous.

Corrélation Python : Guide pour la création de visuels

Nous pouvons certainement changer le style aussi. Par exemple, nous pouvons utiliser le paramètre cmap comme cmap='coolwarm' . Cela change les couleurs en froides et chaudes, et éliminera également notre fond noir. 

Corrélation Python : Guide pour la création de visuels

Si nous cliquons sur Exécuter , nous obtiendrons cette carte thermique ci-dessous. Pour le froid, nous avons le bleu puis pour le chaud, nous avons les barres rouges. 

Corrélation Python : Guide pour la création de visuels

Nous pouvons également changer la direction pour aligner notre carte avec la barre de couleur. Cela se fait en modifiant notre paramètre sort_values ​​et en ajoutant ascending=False

Corrélation Python : Guide pour la création de visuels

Cela ira du plus corrélé (la barre rouge) au moins corrélé (la barre bleue). 

Corrélation Python : Guide pour la création de visuels

Corrélation Python : création d'un visuel d'escalier

Une façon avancée de visualiser notre corrélation consiste à utiliser un masque pour bloquer toutes les corrélations que nous avons déjà effectuées. 

Nous pouvons le faire avec Numpy, en utilisant certaines fonctions TRUE et FALSE pour créer un escalier visuel pour nos corrélations. 

Corrélation Python : Guide pour la création de visuels

Voici à quoi les résultats devraient ressembler.

Corrélation Python : Guide pour la création de visuels

Voyons comment nous pouvons transmettre cela à LuckyTemplates.

Visuel d'escalier dans LuckyTemplates

Tout d'abord, ouvrez LuckyTemplates. J'ai apporté un ensemble de données d'avocat afin que nous puissions voir un visuel différent. Vous pouvez voir cet ensemble de données sous le volet Champs. Initialisez le visuel Python en cliquant sur l' icône Python sous le volet Visualisations. 

Corrélation Python : Guide pour la création de visuels

Nous devons créer le jeu de données en ajoutant toutes les variables numériques indiquées par le ? . Ajoutez-les en cochant les cases à côté de ces variables. 

Corrélation Python : Guide pour la création de visuels

Maintenant que nous avons un ensemble de données, nous pouvons passer à notre bloc-notes Jupyter et copier ce code que nous avions précédemment.

Corrélation Python : Guide pour la création de visuels

Ensuite, nous copierons le code dans l'éditeur de script Python de LuckyTemplates. 

Corrélation Python : Guide pour la création de visuels

Ensuite, nous choisirons notre visuel, qui serait le visuel de l'escalier. Nous allons retourner à Jupyter, copier le code que nous avons utilisé pour notre visuel d'escalier.

Corrélation Python : Guide pour la création de visuels

Collez le code dans l'éditeur de script Python.

Corrélation Python : Guide pour la création de visuels

La dernière chose à faire est de s'assurer que nous utilisons plt.show , qui est requis dans votre script Python. Ajoutez plt.show dans la dernière ligne du code et cliquez sur l' icône d'exécution dans le coin supérieur droit de l'éditeur de script.

Corrélation Python : Guide pour la création de visuels

Pour un visuel plus grand, étirez un peu la boîte afin que nous puissions voir le script s'exécuter dans le coin. Nous avons notre visuel pour notre carte thermique, qui a l'air plutôt sympa.

Corrélation Python : Guide pour la création de visuels

Et dans LuckyTemplates, nous pouvons certainement voir comment ce visuel peut changer en fonction du jeu de données. Par exemple, nous pouvons cliquer sur l' icône Slicer dans le volet Visualisations et accéder à Type dans le volet Champs. 

Cela nous donnera les deux types dans notre ensemble de données, le conventionnel et le biologique . Si nous cliquons sur un type, disons organique , vous pouvez voir que la carte thermique change. 

Corrélation Python : Guide pour la création de visuels

Les modifications s'appliqueront également lorsque nous cliquerons ensuite sur le type conventionnel .

Corrélation Python : Guide pour la création de visuels

N'oubliez pas que nous avons besoin d'une variable catégorielle dans l'ensemble de données de notre script Python pour que ces filtres fonctionnent. Comme nous pouvons le voir, l'ensemble de données que nous avons créé incluait type , nous permettant de filtrer le visuel de cette manière. 

Corrélation Python : Guide pour la création de visuels


Construire vos relations de modèle de données dans l'analyse de texte LuckyTemplates
en Python | Introduction
aux scripts Python dans les rapports de données LuckyTemplates

Conclusion

Dans ce blog, vous avez appris à visualiser les corrélations dans Python et LuckyTemplates à l'aide de différentes méthodes telles que la corrélation de Pearson et la corrélation de rang de Spearman. 

Désormais, vous pouvez créer des diagrammes de dispersion, des diagrammes de régression, une matrice de corrélation, des cartes thermiques et des visuels en escalier pour obtenir le meilleur visuel pour votre ensemble de données. Vous pouvez également utiliser une variété de paramètres pour améliorer les styles et les visuels. 

Tous mes vœux,


Quest-ce que le self en Python ? Exemples concrets

Quest-ce que le self en Python ? Exemples concrets

Qu'est-ce que le self en Python ? Exemples concrets

Comment enregistrer et charger un fichier RDS dans R

Comment enregistrer et charger un fichier RDS dans R

Vous apprendrez à enregistrer et à charger des objets à partir d'un fichier .rds dans R. Ce blog expliquera également comment importer des objets de R vers LuckyTemplates.

First N Business Days Revisited - Une solution de langage de codage DAX

First N Business Days Revisited - Une solution de langage de codage DAX

Dans ce didacticiel sur le langage de codage DAX, découvrez comment utiliser la fonction GENERATE et comment modifier dynamiquement le titre d'une mesure.

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Ce didacticiel explique comment utiliser la technique Multi Threaded Dynamic Visuals pour créer des informations à partir de visualisations de données dynamiques dans vos rapports.

Introduction au filtrage du contexte dans LuckyTemplates

Introduction au filtrage du contexte dans LuckyTemplates

Dans cet article, je vais parcourir le contexte du filtre. Le contexte de filtrage est l'un des principaux sujets que tout utilisateur de LuckyTemplates doit d'abord connaître.

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Je souhaite montrer comment le service en ligne LuckyTemplates Apps peut aider à gérer différents rapports et informations générés à partir de diverses sources.

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Découvrez comment calculer les modifications de votre marge bénéficiaire à l'aide de techniques telles que la création de branches de mesure et la combinaison de formules DAX dans LuckyTemplates.

Idées de matérialisation pour les caches de données dans DAX Studio

Idées de matérialisation pour les caches de données dans DAX Studio

Ce didacticiel abordera les idées de matérialisation des caches de données et comment elles affectent les performances des DAX dans la fourniture de résultats.

Rapports dentreprise à laide de LuckyTemplates

Rapports dentreprise à laide de LuckyTemplates

Si vous utilisez encore Excel jusqu'à présent, c'est le meilleur moment pour commencer à utiliser LuckyTemplates pour vos besoins en matière de rapports commerciaux.

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Qu'est-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir