Quest-ce que le self en Python ? Exemples concrets
Qu'est-ce que le self en Python ? Exemples concrets
Dans le blog d'aujourd'hui, nous allons parcourir le processus de visualisation de la corrélation Python et comment importer ces visuels dans LuckyTemplates. Vous pouvez regarder la vidéo complète de ce tutoriel au bas de ce blog.
Table des matières
Comprendre les corrélations
Voici une belle image montrant les différents types de corrélations.
En partant de la gauche, nous avons la corrélation positive parfaite , ce qui signifie qu'elle a une valeur de corrélation de 1. Ensuite, elle est suivie de corrélations positives dans l'ordre décroissant menant à 0.
Le graphique du milieu ne montre aucune corrélation suggérant une valeur de corrélation égale à 0.
Enfin, le côté droit présente des valeurs de corrélations négatives décroissantes à partir de 0. Le graphique le plus à droite est la corrélation négative parfaite qui a une valeur de corrélation de -1.
Packages pour la corrélation Python
Nous utiliserons quatre packages pour ce tutoriel. Notre premier package est Pandas à utiliser pour la manipulation de données et enregistré en tant que variable pd .
Pour la visualisation, nous utiliserons Matplotlib , enregistré en tant que variable plt pour une utilisation plus facile de ces fonctions. Seaborn , notre bibliothèque de visualisation statistique, sera enregistrée en tant que sns . Et enfin, Numpy , à enregistrer sous np , sera utilisé pour l'algèbre linéaire.
Pour les données, nous utiliserons un exemple de jeu de données dans Seaborn. Ensuite, en utilisant la variable sns, nous apporterons l' ensemble de données de diamants comme indiqué ci-dessous. .
Attributs des données
Nous pouvons afficher les attributs de nos données en utilisant la fonction dataset.info . Cette fonction nous montre tous les différents types de données comme on le voit dans la dernière colonne ci-dessous.
Notez que la corrélation ne fonctionne que sur les variables numériques, nous allons donc regarder les variables numériques la plupart du temps. Cependant, nous apprendrons également à utiliser certaines des variables catégorielles pour la visualisation.
L'ensemble de données de corrélation Python
En utilisant la fonction head écrite comme dataset.head , nous pouvons obtenir les cinq premières lignes de nos données qui devraient ressembler à ceci.
Nous avons carat dans la première colonne, suivis des variables catégorielles cut , color , et clearness , puis des valeurs numériques pour le reste des données.
Corrélation Python : création d'un nuage de points
Lors de la visualisation des corrélations et de l'examen de deux variables, nous examinons généralement les nuages de points .
Ainsi, à l'aide de la bibliothèque Seaborn, nous avons créé notre nuage de points à l'aide de la fonction de nuage de points où nous avons transmis les données que nous avons enregistrées ci-dessus en tant que data=dataset . Ensuite, nous avons identifié les variables X et Y, carat et prix , respectivement.
Voici notre nuage de points réalisé avec la bibliothèque Seaborn.
Vous pouvez voir que ce nuage de points est assez dense. C'est parce que nous avons environ 54 000 lignes de données et que les points ne sont pas nécessairement représentés de la meilleure façon.
Nous pouvons appuyer sur les touches Maj + Tab pour voir les différentes façons de styliser le nuage de points. Il nous montrera une liste de différents paramètres que nous pouvons ajouter à notre nuage de points.
Faire défiler plus bas nous donnera des informations sur ce que fait chacun des paramètres répertoriés.
Paramètres supplémentaires du nuage de points
Plongeons un peu. Nous pouvons rendre la largeur de ligne = 0 car les lignes blanches de notre premier nuage de points, illustrées ci-dessous, obscurcissent quelque peu les choses.
Nous voulons également ajuster l'alpha afin de pouvoir contrôler l'opacité. Utilisons alpha=0.2 pour notre exemple. Mais bien sûr, vous pouvez également changer cela en 0,1.
Si nous ajoutons ces paramètres et cliquons sur Exécuter , vous pouvez voir que notre nuage de points devient plus opaque sans les lignes blanches.
Vous pouvez jouer avec les paramètres pour obtenir le meilleur visuel que vous recherchez.
Utilisation des variables qualitatives
Nous pouvons également utiliser certaines de nos variables catégorielles pour améliorer nos visuels. Par exemple, nous savons que nos données ont une coupe pour notre diamant.
Ce que nous pouvons faire est de passer dans cette catégorie de coupe en utilisant le paramètre hue comme hue='cut'. Cela nous permettra de visualiser ces points en changeant les couleurs.
Bien sûr, nous pouvons ajouter plus de paramètres comme l'alpha, par exemple. Nous pouvons ajouter cela à nouveau, défini sur 0,2, et voir comment cela change le visuel. Cliquons sur Exécuter et vous pouvez voir une petite différence.
Nous pouvons jouer avec les paramètres pour obtenir le visuel que nous recherchons. Nous pouvons également utiliser différentes catégories telles que la clarté, qui nous donne les catégories de clarté et nous donne également une vue légèrement différente de cette dispersion.
Corrélation avec d'autres variables
Vous pouvez également être intéressé par la façon dont d'autres valeurs sont corrélées autres que le prix et le carat. Donc, si nous regardons un nuage de points pour table , qui est la dimension numérique de ce diamant et de la profondeur , nous pouvons voir qu'il n'y a pas de relation linéaire un à un.
Nous pouvons également examiner deux autres variables telles que la profondeur et le prix . Sur la base du graphique, nous pouvons voir que les données sont centrées autour de la zone médiane.
Corrélation Python : création d'un graphique de régression
Passons à ce que nous appelons un diagramme de régression qui nous permet d'évaluer la relation linéaire entre deux variables.
Ainsi, au lieu de la fonction nuage de points, nous utiliserons cette fois la fonction regplot . Nous allons passer dans la même structure — nos données puis les variables X et Y.
Le résultat montre une ligne qui mesure la relation linéaire entre les variables. Il est également évident que nos valeurs tournent autour de cette ligne de régression.
Ce n'est pas un très beau visuel pour le moment, mais on peut encore l'optimiser pour en obtenir un meilleur. Par exemple, nous pouvons transmettre un style en utilisant la variable Matplotlib. Nous pouvons changer le style en arrière-plan sombre en utilisant le code plt.style.use('dark_background').
Prenez ce même graphique de régression et transmettez quelques mots-clés pour notre nuage de points et notre ligne. Utilisons la couleur rouge et une largeur de ligne de 1 pour notre ligne de régression. Cela s'écrit line_kws={“color” : “red”, 'linewidth' : 1).
Pour nos mots-clés scatter, définissons la couleur sur blanc, la couleur des bords sur gris et l'opacité sur 0,4 à écrire sous la forme scatter_kws={“color” : “white”, 'edgecolor' : 'grey', 'alpha' : 0.4 ).
Ces paramètres nous donnent un peu une vue différente montrée ci-dessous.
Corrélation Python : création d'une matrice de corrélation
Jusqu'à présent, nous avons examiné des diagrammes de dispersion avec seulement deux variables, mais nous pouvons également souhaiter examiner toutes nos corrélations de variables.
Ceci est effectué à l'aide de notre ensemble de données avec une fonction de trame de données appelée corrélation représentée par dataset.corr. Et ce que nous obtiendrons est une matrice qui nous montre des corrélations sur chacune de ces variables.
Les chiffres du tableau ci-dessus représentent la corrélation de Pearson , qui se concentre sur la relation linéaire entre toutes ces variables.
Mais si nous ne savons pas si nos variables sont entièrement corrélées linéairement, nous pouvons utiliser un autre type de corrélation qui se concentre davantage sur l'impact que la partie linéaire. C'est ce qu'on appelle une corrélation de Spearman .
Et nous pouvons voir des informations sur toutes ces choses en appuyant sur Maj + Tab. Si vous faites défiler vers le bas, nous pouvons voir la corrélation de rang de Spearman, le coefficient de corrélation de Pearson et de nombreuses façons différentes de mesurer nos données.
En revenant à notre matrice de corrélation plus tôt, nous savons que le prix et le carat sont assez bien corrélés.
Ils proviennent de notre graphique ici montrant qu'ils sont assez linéaires à 0,92.
Maintenant, si nous utilisons la corrélation de Spearman à la place, l'impact ou le rang sera un peu plus élevé à 0,96.
Ces différents types de corrélations nous permettent de relever différents attributs de corrélation entre ces variables.
Corrélation variable multiple x unique
Parfois, nous ne voulons pas voir une matrice parce que nous sommes plus préoccupés par la corrélation de toutes les variables avec une seule variable (par exemple, le prix).
Ce que nous pouvons faire alors est d'isoler le prix en utilisant dataset.corr suivi de 'price' .
Maintenant, nous pouvons voir que le prix est corrélé avec toutes nos différentes variables numériques dans ce tableau. Et la raison pour laquelle nous voudrions peut-être faire cela est pour les tracés visuels.
Regardons donc la visualisation de notre matrice de corrélation avec une carte thermique.
Corrélation Python : création d'une carte thermique
Nous pouvons transmettre cette variable de corrélation dans une carte thermique Seaborn à l'aide de la fonction sns.heatmap.
Cela nous donnera une carte thermique qui ressemble à ceci.
Encore une fois, nous pouvons ajouter des paramètres à notre préférence. Nous pouvons passer le paramètre linewidths=1 et ajouter des annotations en utilisant annot=True .
Et vous pouvez voir que notre carte thermique est maintenant très différente. En ce moment, nous avons une assez belle carte thermique.
On voit l'utilité d'ajouter les lignes et les annotations. Encore une fois, si nous appuyons sur Maj + Tab, tous les différents paramètres qui peuvent entrer dans cela apparaîtront.
Ensuite, essayez d'ajouter method='spearman ' dans notre code, ainsi vous saurez comment utiliser un type de corrélation différent selon votre cas d'utilisation.
Carte thermique avec une variable
Ensuite, nous isolons une variable et créons une carte thermique avec la corrélation allant du négatif au positif.
Cela nous donnera cette carte thermique ci-dessous.
Nous pouvons certainement changer le style aussi. Par exemple, nous pouvons utiliser le paramètre cmap comme cmap='coolwarm' . Cela change les couleurs en froides et chaudes, et éliminera également notre fond noir.
Si nous cliquons sur Exécuter , nous obtiendrons cette carte thermique ci-dessous. Pour le froid, nous avons le bleu puis pour le chaud, nous avons les barres rouges.
Nous pouvons également changer la direction pour aligner notre carte avec la barre de couleur. Cela se fait en modifiant notre paramètre sort_values et en ajoutant ascending=False .
Cela ira du plus corrélé (la barre rouge) au moins corrélé (la barre bleue).
Corrélation Python : création d'un visuel d'escalier
Une façon avancée de visualiser notre corrélation consiste à utiliser un masque pour bloquer toutes les corrélations que nous avons déjà effectuées.
Nous pouvons le faire avec Numpy, en utilisant certaines fonctions TRUE et FALSE pour créer un escalier visuel pour nos corrélations.
Voici à quoi les résultats devraient ressembler.
Voyons comment nous pouvons transmettre cela à LuckyTemplates.
Visuel d'escalier dans LuckyTemplates
Tout d'abord, ouvrez LuckyTemplates. J'ai apporté un ensemble de données d'avocat afin que nous puissions voir un visuel différent. Vous pouvez voir cet ensemble de données sous le volet Champs. Initialisez le visuel Python en cliquant sur l' icône Python sous le volet Visualisations.
Nous devons créer le jeu de données en ajoutant toutes les variables numériques indiquées par le ? . Ajoutez-les en cochant les cases à côté de ces variables.
Maintenant que nous avons un ensemble de données, nous pouvons passer à notre bloc-notes Jupyter et copier ce code que nous avions précédemment.
Ensuite, nous copierons le code dans l'éditeur de script Python de LuckyTemplates.
Ensuite, nous choisirons notre visuel, qui serait le visuel de l'escalier. Nous allons retourner à Jupyter, copier le code que nous avons utilisé pour notre visuel d'escalier.
Collez le code dans l'éditeur de script Python.
La dernière chose à faire est de s'assurer que nous utilisons plt.show , qui est requis dans votre script Python. Ajoutez plt.show dans la dernière ligne du code et cliquez sur l' icône d'exécution dans le coin supérieur droit de l'éditeur de script.
Pour un visuel plus grand, étirez un peu la boîte afin que nous puissions voir le script s'exécuter dans le coin. Nous avons notre visuel pour notre carte thermique, qui a l'air plutôt sympa.
Et dans LuckyTemplates, nous pouvons certainement voir comment ce visuel peut changer en fonction du jeu de données. Par exemple, nous pouvons cliquer sur l' icône Slicer dans le volet Visualisations et accéder à Type dans le volet Champs.
Cela nous donnera les deux types dans notre ensemble de données, le conventionnel et le biologique . Si nous cliquons sur un type, disons organique , vous pouvez voir que la carte thermique change.
Les modifications s'appliqueront également lorsque nous cliquerons ensuite sur le type conventionnel .
N'oubliez pas que nous avons besoin d'une variable catégorielle dans l'ensemble de données de notre script Python pour que ces filtres fonctionnent. Comme nous pouvons le voir, l'ensemble de données que nous avons créé incluait type , nous permettant de filtrer le visuel de cette manière.
Construire vos relations de modèle de données dans l'analyse de texte LuckyTemplates
en Python | Introduction
aux scripts Python dans les rapports de données LuckyTemplates
Conclusion
Dans ce blog, vous avez appris à visualiser les corrélations dans Python et LuckyTemplates à l'aide de différentes méthodes telles que la corrélation de Pearson et la corrélation de rang de Spearman.
Désormais, vous pouvez créer des diagrammes de dispersion, des diagrammes de régression, une matrice de corrélation, des cartes thermiques et des visuels en escalier pour obtenir le meilleur visuel pour votre ensemble de données. Vous pouvez également utiliser une variété de paramètres pour améliorer les styles et les visuels.
Tous mes vœux,
Qu'est-ce que le self en Python ? Exemples concrets
Vous apprendrez à enregistrer et à charger des objets à partir d'un fichier .rds dans R. Ce blog expliquera également comment importer des objets de R vers LuckyTemplates.
Dans ce didacticiel sur le langage de codage DAX, découvrez comment utiliser la fonction GENERATE et comment modifier dynamiquement le titre d'une mesure.
Ce didacticiel explique comment utiliser la technique Multi Threaded Dynamic Visuals pour créer des informations à partir de visualisations de données dynamiques dans vos rapports.
Dans cet article, je vais parcourir le contexte du filtre. Le contexte de filtrage est l'un des principaux sujets que tout utilisateur de LuckyTemplates doit d'abord connaître.
Je souhaite montrer comment le service en ligne LuckyTemplates Apps peut aider à gérer différents rapports et informations générés à partir de diverses sources.
Découvrez comment calculer les modifications de votre marge bénéficiaire à l'aide de techniques telles que la création de branches de mesure et la combinaison de formules DAX dans LuckyTemplates.
Ce didacticiel abordera les idées de matérialisation des caches de données et comment elles affectent les performances des DAX dans la fourniture de résultats.
Si vous utilisez encore Excel jusqu'à présent, c'est le meilleur moment pour commencer à utiliser LuckyTemplates pour vos besoins en matière de rapports commerciaux.
Qu'est-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir