Python-correlatie: gids bij het maken van visuals

Python-correlatie: gids bij het maken van visuals

In de blog van vandaag zullen we het proces doorlopen van het visualiseren van Python- correlatie en hoe deze visuals in LuckyTemplates kunnen worden geïmporteerd. Je kunt de volledige video van deze tutorial onderaan deze blog bekijken.

Inhoudsopgave

Correlaties begrijpen

Hier is een mooie afbeelding die de verschillende soorten correlaties laat zien. 

Python-correlatie: gids bij het maken van visuals

Beginnend van links hebben we de perfecte positieve correlatie , wat betekent dat het een correlatiewaarde van 1 heeft. Vervolgens wordt het gevolgd door positieve correlaties in aflopende volgorde die leiden tot 0. 

De middelste grafiek toont geen correlatie , wat een correlatiewaarde suggereert die gelijk is aan 0. 

Ten slotte toont de rechterkant afnemende negatieve correlatiewaarden vanaf 0. De meest rechtse grafiek is de perfecte negatieve correlatie met een correlatiewaarde van -1.

Pakketten voor Python-correlatie

We zullen vier pakketten gebruiken voor deze zelfstudie. Ons eerste pakket is Panda's om te gebruiken voor gegevensmanipulatie en opgeslagen als variabele pd

Voor visualisatie gebruiken we Matplotlib , opgeslagen als plt- variabele voor eenvoudiger gebruik van deze functies. Seaborn , onze statistische visualisatiebibliotheek, wordt opgeslagen als sns . En ten slotte zal Numpy , om te worden opgeslagen als np , worden gebruikt voor lineaire algebra. 

Python-correlatie: gids bij het maken van visuals

Voor de gegevens gebruiken we een voorbeelddataset in Seaborn. Vervolgens gebruiken we de sns-variabele om de dataset diamanten in te voeren, zoals hieronder weergegeven. .

Python-correlatie: gids bij het maken van visuals

Kenmerken van de gegevens

We kunnen de kenmerken van onze gegevens bekijken met de functie dataset.info . Deze functie toont ons alle verschillende gegevenstypen zoals te zien in de laatste kolom hieronder.

Python-correlatie: gids bij het maken van visuals

Merk op dat correlatie alleen werkt op numerieke variabelen, daarom gaan we meestal naar de numerieke variabelen kijken. We zullen echter ook leren hoe we enkele van de categorische variabelen kunnen gebruiken voor visualisatie. 

De Python-correlatiegegevensset

Door de functie head te gebruiken die is geschreven als dataset.head , kunnen we de bovenste vijf rijen van onze gegevens krijgen die er zo uit zouden moeten zien.

Python-correlatie: gids bij het maken van visuals

We hebben karaat in de eerste kolom, gevolgd door de categorische variabelen knippen , kleur en helderheid , en vervolgens numerieke waarden voor de rest van de gegevens. 

Python-correlatie: een spreidingsdiagram maken

Wanneer we correlaties visualiseren en naar twee variabelen kijken, kijken we meestal naar spreidingsdiagrammen

Dus, met behulp van de Seaborn-bibliotheek, hebben we onze spreidingsplot gemaakt met behulp van de spreidingsplotfunctie waar we de gegevens hebben doorgegeven die we hierboven hebben opgeslagen als data=dataset . Vervolgens identificeerden we de X- en Y-variabelen, respectievelijk karaat en prijs

Python-correlatie: gids bij het maken van visuals

Dit is ons spreidingsdiagram gemaakt met de Seaborn-bibliotheek. 

Python-correlatie: gids bij het maken van visuals

Je kunt zien dat deze spreidingsplot behoorlijk dicht is. Dat komt omdat we ongeveer 54.000 rijen met gegevens hebben en de punten niet noodzakelijkerwijs op de beste manier worden weergegeven.

We kunnen op de Shift + Tab-toetsen drukken om de verschillende manieren te zien om de spreidingsplot te stylen. Het toont ons een lijst met verschillende parameters die we aan onze spreidingsplot kunnen toevoegen. 

Python-correlatie: gids bij het maken van visuals

Als u verder naar beneden scrolt, krijgt u informatie over wat elk van de vermelde parameters doet. 

Python-correlatie: gids bij het maken van visuals

Aanvullende scatterplotparameters

Laten we er een beetje induiken. We kunnen de lijnbreedte = 0 maken omdat de witte lijnen in onze eerste scatterplot, hieronder weergegeven, enigszins onduidelijke dingen zijn. 

Python-correlatie: gids bij het maken van visuals

We willen ook de alfa aanpassen, zodat we de dekking kunnen regelen. Laten we alpha=0.2 gebruiken voor ons voorbeeld. Maar je zou dat natuurlijk ook kunnen veranderen in 0.1. 

Python-correlatie: gids bij het maken van visuals

Als we deze parameters toevoegen en op Uitvoeren klikken , kunt u zien dat ons spreidingsdiagram ondoorzichtiger wordt zonder de witte lijnen. 

Python-correlatie: gids bij het maken van visuals

U kunt spelen met de parameters om de beste visual te krijgen waarnaar u op zoek bent. 

De categorische variabelen gebruiken

We kunnen ook enkele van onze categorische variabelen gebruiken om onze visuals te verbeteren. We weten bijvoorbeeld dat onze gegevens een slijpvorm hebben voor onze diamant. 

Wat we kunnen doen, is die knipcategorie doorgeven met de hue- parameter als hue='cut'. Hierdoor kunnen we deze punten visualiseren door de kleuren te veranderen. 

Python-correlatie: gids bij het maken van visuals

Natuurlijk kunnen we meer parameters toevoegen, zoals bijvoorbeeld de alfa. We kunnen dat opnieuw toevoegen, instellen op 0,2, en kijken hoe dat het beeld verandert. Laten we op Uitvoeren klikken en je kunt een klein verschil zien. 

Python-correlatie: gids bij het maken van visuals

We kunnen met de parameters spelen om het beeld te krijgen waarnaar we op zoek zijn. We kunnen ook verschillende categorieën gebruiken, zoals duidelijkheid, wat ons de duidelijkheidscategorieën geeft en ons ook een iets andere kijk op die spreiding geeft.

Python-correlatie: gids bij het maken van visuals

Correlatie met andere variabelen

Mogelijk bent u ook geïnteresseerd in hoe andere waarden dan prijs en karaat gecorreleerd zijn. Dus als we kijken naar een spreidingsplot voor table , wat de numerieke dimensie is van die diamant en  depth , kunnen we zien dat er geen één-op-één lineaire relatie is.

Python-correlatie: gids bij het maken van visuals

We kunnen ook kijken naar twee andere variabelen zoals diepte en prijs . Op basis van de grafiek kunnen we zien dat de datacenters rond het middelste gebied liggen.

Python-correlatie: gids bij het maken van visuals

Python-correlatie: een regressieplot maken

Laten we verder gaan met wat we een regressieplot noemen waarmee we de lineaire relatie tussen twee variabelen kunnen evalueren. 

Dus in plaats van de scatterplotfunctie gebruiken we deze keer de regplotfunctie . We zullen dezelfde structuur doorgeven: onze gegevens en vervolgens de X- en Y-variabelen. 

Python-correlatie: gids bij het maken van visuals

Het resultaat toont een lijn die de lineaire relatie tussen de variabelen meet. Het is ook duidelijk hoe onze waarden rond die regressielijn cirkelen.

Python-correlatie: gids bij het maken van visuals

Dit is momenteel geen erg mooie visual, maar we kunnen het nog steeds optimaliseren om een ​​betere te krijgen. We kunnen bijvoorbeeld een stijl doorgeven met behulp van de Matplotlib-variabele. We kunnen de stijl veranderen in een donkere achtergrond met behulp van de code plt.style.use('dark_background'). 

Python-correlatie: gids bij het maken van visuals

Neem diezelfde regressiegrafiek en geef enkele trefwoorden door voor onze spreiding en lijn. Laten we kleur rood en een lijndikte van 1 gebruiken voor onze regressielijn. Dit wordt geschreven als line_kws={“color”: “red”, 'linewidth': 1). 

Laten we voor onze scatter-trefwoorden de kleur instellen op wit, de randkleur op grijs en de dekking op 0,4 om te worden geschreven als scatter_kws={“color” : “white”, 'edgecolor': 'grey', 'alpha': 0,4 ). 

Python-correlatie: gids bij het maken van visuals

Deze parameters geven ons een klein beetje een ander beeld dat hieronder wordt getoond. 

Python-correlatie: gids bij het maken van visuals

Python-correlatie: een correlatiematrix maken

Tot nu toe hebben we gekeken naar spreidingsdiagrammen met slechts twee variabelen, maar misschien willen we ook kijken naar al onze variabele correlaties.

Dit wordt uitgevoerd met behulp van onze dataset met een dataframefunctie genaamd correlatie, weergegeven als dataset.corr. En wat we krijgen is een matrix die ons correlaties laat zien op elk van deze variabelen. 

Python-correlatie: gids bij het maken van visuals

De getallen in de bovenstaande tabel vertegenwoordigen de Pearson-correlatie , die zich richt op de lineaire relatie tussen al deze variabelen. 

Maar als we niet zeker weten of onze variabelen volledig lineair gecorreleerd zijn, kunnen we een ander type correlatie gebruiken dat meer gericht is op impact dan op het lineaire deel. Het wordt een Spearman-correlatie genoemd . 

Python-correlatie: gids bij het maken van visuals

En we kunnen informatie over al deze dingen zien door op Shift + Tab te drukken. Als u naar beneden scrolt, kunnen we de Spearman-rangcorrelatie, de Pearson-correlatiecoëfficiënt en heel wat verschillende manieren zien om onze gegevens te meten. 

Python-correlatie: gids bij het maken van visuals

Terugkijkend op onze correlatiematrix eerder, weten we dat prijs en karaat vrij goed gecorreleerd zijn.

Python-correlatie: gids bij het maken van visuals

Ze komen uit onze plot hier en laten zien dat ze vrij lineair zijn op 0,92. 

Python-correlatie: gids bij het maken van visuals

Als we nu de Spearman-correlatie gebruiken, zal de impact of de rang een beetje hoger zijn op 0,96.

Python-correlatie: gids bij het maken van visuals

Deze verschillende soorten correlaties stellen ons in staat om verschillende attributen van correlatie tussen die variabelen op te pikken. 

Meerdere x enkele variabele correlatie

Soms willen we geen matrix zien, omdat we ons meer zorgen maken over de correlatie van alle variabelen met slechts één variabele (bijvoorbeeld prijs).

Wat we dan kunnen doen, is de prijs isoleren met behulp van dataset.corr gevolgd door 'price'

Python-correlatie: gids bij het maken van visuals

Nu kunnen we zien dat de prijs gecorreleerd is met al onze verschillende numerieke variabelen in deze tabel. En de reden dat we dit misschien willen doen, is voor visuele plots. 

Laten we dus eens kijken naar het visualiseren van onze correlatiematrix met een warmtekaart.

Python-correlatie: een hittekaart maken

We kunnen deze correlatievariabele doorgeven aan een Seaborn- warmtekaart met behulp van de functie sns.heatmap.

Python-correlatie: gids bij het maken van visuals

Dit geeft ons een heatmap die er zo uitziet.

Python-correlatie: gids bij het maken van visuals

Nogmaals, we kunnen parameters toevoegen aan onze voorkeur. We kunnen de parameter linewidths=1 doorgeven en annotaties toevoegen met annot=True

Python-correlatie: gids bij het maken van visuals

En je kunt zien dat onze heatmap er nu heel anders uitziet. Op dit moment hebben we een vrij mooie hittekaart. 

Python-correlatie: gids bij het maken van visuals

We kunnen het nut inzien van het toevoegen van de regels en de annotaties. Nogmaals, als we op Shift + Tab drukken, verschijnen alle verschillende parameters die daarin kunnen worden opgenomen. 

Probeer vervolgens method='spearman ' in onze code toe te voegen, zodat u weet hoe u een ander type correlatie kunt gebruiken, afhankelijk van uw gebruikssituatie. 

Python-correlatie: gids bij het maken van visuals

Warmtekaart met één variabele

Vervolgens isoleren we één variabele en maken we een heatmap met de correlatie van negatief naar positief.

Python-correlatie: gids bij het maken van visuals

Dit geeft ons deze heatmap hieronder.

Python-correlatie: gids bij het maken van visuals

Ook de styling kunnen we zeker veranderen. We kunnen bijvoorbeeld de parameter cmap gebruiken als cmap='coolwarm' . Dit verandert de kleuren in koel en warm en elimineert ook onze zwarte achtergrond. 

Python-correlatie: gids bij het maken van visuals

Als we op Uitvoeren klikken , krijgen we deze heatmap hieronder. Voor koel hebben we de blauwe en voor warm hebben we de rode balken. 

Python-correlatie: gids bij het maken van visuals

We kunnen ook de richting wijzigen om onze kaart uit te lijnen met de kleurenbalk. Dit wordt gedaan door onze parameter sort_values ​​te bewerken en ascending=False toe te voegen . 

Python-correlatie: gids bij het maken van visuals

Dit gaat van de meest gecorreleerde (de rode balk) naar de minst gecorreleerde (de blauwe balk). 

Python-correlatie: gids bij het maken van visuals

Python-correlatie: een visuele trap maken

Een geavanceerde manier om onze correlatie te visualiseren, is door een masker te gebruiken om alle correlaties die we al hebben gedaan te blokkeren. 

We kunnen dit doen met Numpy, door enkele WAAR- en ONWAAR-functies te gebruiken om een ​​trap visueel te maken voor onze correlaties. 

Python-correlatie: gids bij het maken van visuals

Hier is hoe de resultaten eruit zouden moeten zien.

Python-correlatie: gids bij het maken van visuals

Laten we eens kijken hoe we dit kunnen overzetten naar LuckyTemplates.

Trap visueel in LuckyTemplates

Open eerst LuckyTemplates. Ik heb een avocadodataset binnengebracht zodat we een ander beeld kunnen zien. U kunt deze dataset zien onder het deelvenster Velden. Initialiseer de Python- visual door op het Python-pictogram onder het deelvenster Visualisaties te klikken. 

Python-correlatie: gids bij het maken van visuals

We moeten de dataset maken door alle numerieke variabelen toe te voegen die worden aangegeven met de ? . Voeg ze toe door op de selectievakjes naast deze variabelen te klikken. 

Python-correlatie: gids bij het maken van visuals

Nu we een dataset hebben, kunnen we naar onze Jupyter-notebook gaan en deze code kopiëren die we eerder hadden.

Python-correlatie: gids bij het maken van visuals

Vervolgens kopiëren we de code naar de Python-scripteditor in LuckyTemplates. 

Python-correlatie: gids bij het maken van visuals

Vervolgens kiezen we onze visual, die de trapvisual zou zijn. We gaan terug naar Jupyter, kopiëren de code die we gebruikten voor onze visuele trap.

Python-correlatie: gids bij het maken van visuals

Plak de code in de Python-scripteditor.

Python-correlatie: gids bij het maken van visuals

Het laatste dat u moet doen, is ervoor zorgen dat we plt.show gebruiken , wat vereist is in uw Python-script. Voeg plt.show toe in de laatste regel van de code en klik op het pictogram Uitvoeren in de rechterbovenhoek van de scripteditor.

Python-correlatie: gids bij het maken van visuals

Voor een groter beeld rekt u de doos een beetje uit zodat we het script in de hoek kunnen zien lopen. We hebben onze visual voor onze heatmap, die er best goed uitziet.

Python-correlatie: gids bij het maken van visuals

En in LuckyTemplates kunnen we zeker zien hoe die visual kan veranderen volgens de dataset. We kunnen bijvoorbeeld op het Slicer- pictogram klikken in het deelvenster Visualisaties en naar Type gaan in het deelvenster Velden. 

Het geeft ons de twee typen in onze dataset, de conventionele en organische . Als we op één type klikken, bijvoorbeeld organisch , zie je dat de heatmap verandert. 

Python-correlatie: gids bij het maken van visuals

Wijzigingen zijn ook van toepassing wanneer we op het conventionele type hierna klikken.

Python-correlatie: gids bij het maken van visuals

Onthoud dat we een categorische variabele in de dataset van ons Python- script nodig hebben om deze filters te laten werken. Zoals we kunnen zien, bevat de dataset die we hebben gemaakt het type , waardoor we de visual op die manier kunnen filteren. 

Python-correlatie: gids bij het maken van visuals


Uw gegevensmodelrelaties opbouwen in LuckyTemplates
Tekstanalyse in Python | Een introductie
Python-scripting in LuckyTemplates-gegevensrapporten

Conclusie

In deze blog heb je geleerd hoe je correlaties in Python en LuckyTemplates kunt visualiseren met behulp van verschillende methoden, zoals Pearson-correlatie en Spearman-rangcorrelatie. 

U kunt nu scatterplots, regressieplots, correlatiematrix, heatmaps en trapvisuals maken om de beste visual voor uw dataset te krijgen. U kunt ook verschillende parameters gebruiken om de stijlen en afbeeldingen te verbeteren. 

Al het beste,


Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Een RDS-bestand opslaan en laden in R

Een RDS-bestand opslaan en laden in R

Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.

First N Business Days Revisited – Een DAX-coderingstaaloplossing

First N Business Days Revisited – Een DAX-coderingstaaloplossing

In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.

Inleiding tot het filteren van context in LuckyTemplates

Inleiding tot het filteren van context in LuckyTemplates

In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.

Zakelijke rapportage met behulp van LuckyTemplates

Zakelijke rapportage met behulp van LuckyTemplates

Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten