Wat is zelf in Python: voorbeelden uit de echte wereld
Wat is zelf in Python: voorbeelden uit de echte wereld
In de blog van vandaag zullen we het proces doorlopen van het visualiseren van Python- correlatie en hoe deze visuals in LuckyTemplates kunnen worden geïmporteerd. Je kunt de volledige video van deze tutorial onderaan deze blog bekijken.
Inhoudsopgave
Correlaties begrijpen
Hier is een mooie afbeelding die de verschillende soorten correlaties laat zien.
Beginnend van links hebben we de perfecte positieve correlatie , wat betekent dat het een correlatiewaarde van 1 heeft. Vervolgens wordt het gevolgd door positieve correlaties in aflopende volgorde die leiden tot 0.
De middelste grafiek toont geen correlatie , wat een correlatiewaarde suggereert die gelijk is aan 0.
Ten slotte toont de rechterkant afnemende negatieve correlatiewaarden vanaf 0. De meest rechtse grafiek is de perfecte negatieve correlatie met een correlatiewaarde van -1.
Pakketten voor Python-correlatie
We zullen vier pakketten gebruiken voor deze zelfstudie. Ons eerste pakket is Panda's om te gebruiken voor gegevensmanipulatie en opgeslagen als variabele pd .
Voor visualisatie gebruiken we Matplotlib , opgeslagen als plt- variabele voor eenvoudiger gebruik van deze functies. Seaborn , onze statistische visualisatiebibliotheek, wordt opgeslagen als sns . En ten slotte zal Numpy , om te worden opgeslagen als np , worden gebruikt voor lineaire algebra.
Voor de gegevens gebruiken we een voorbeelddataset in Seaborn. Vervolgens gebruiken we de sns-variabele om de dataset diamanten in te voeren, zoals hieronder weergegeven. .
Kenmerken van de gegevens
We kunnen de kenmerken van onze gegevens bekijken met de functie dataset.info . Deze functie toont ons alle verschillende gegevenstypen zoals te zien in de laatste kolom hieronder.
Merk op dat correlatie alleen werkt op numerieke variabelen, daarom gaan we meestal naar de numerieke variabelen kijken. We zullen echter ook leren hoe we enkele van de categorische variabelen kunnen gebruiken voor visualisatie.
De Python-correlatiegegevensset
Door de functie head te gebruiken die is geschreven als dataset.head , kunnen we de bovenste vijf rijen van onze gegevens krijgen die er zo uit zouden moeten zien.
We hebben karaat in de eerste kolom, gevolgd door de categorische variabelen knippen , kleur en helderheid , en vervolgens numerieke waarden voor de rest van de gegevens.
Python-correlatie: een spreidingsdiagram maken
Wanneer we correlaties visualiseren en naar twee variabelen kijken, kijken we meestal naar spreidingsdiagrammen .
Dus, met behulp van de Seaborn-bibliotheek, hebben we onze spreidingsplot gemaakt met behulp van de spreidingsplotfunctie waar we de gegevens hebben doorgegeven die we hierboven hebben opgeslagen als data=dataset . Vervolgens identificeerden we de X- en Y-variabelen, respectievelijk karaat en prijs .
Dit is ons spreidingsdiagram gemaakt met de Seaborn-bibliotheek.
Je kunt zien dat deze spreidingsplot behoorlijk dicht is. Dat komt omdat we ongeveer 54.000 rijen met gegevens hebben en de punten niet noodzakelijkerwijs op de beste manier worden weergegeven.
We kunnen op de Shift + Tab-toetsen drukken om de verschillende manieren te zien om de spreidingsplot te stylen. Het toont ons een lijst met verschillende parameters die we aan onze spreidingsplot kunnen toevoegen.
Als u verder naar beneden scrolt, krijgt u informatie over wat elk van de vermelde parameters doet.
Aanvullende scatterplotparameters
Laten we er een beetje induiken. We kunnen de lijnbreedte = 0 maken omdat de witte lijnen in onze eerste scatterplot, hieronder weergegeven, enigszins onduidelijke dingen zijn.
We willen ook de alfa aanpassen, zodat we de dekking kunnen regelen. Laten we alpha=0.2 gebruiken voor ons voorbeeld. Maar je zou dat natuurlijk ook kunnen veranderen in 0.1.
Als we deze parameters toevoegen en op Uitvoeren klikken , kunt u zien dat ons spreidingsdiagram ondoorzichtiger wordt zonder de witte lijnen.
U kunt spelen met de parameters om de beste visual te krijgen waarnaar u op zoek bent.
De categorische variabelen gebruiken
We kunnen ook enkele van onze categorische variabelen gebruiken om onze visuals te verbeteren. We weten bijvoorbeeld dat onze gegevens een slijpvorm hebben voor onze diamant.
Wat we kunnen doen, is die knipcategorie doorgeven met de hue- parameter als hue='cut'. Hierdoor kunnen we deze punten visualiseren door de kleuren te veranderen.
Natuurlijk kunnen we meer parameters toevoegen, zoals bijvoorbeeld de alfa. We kunnen dat opnieuw toevoegen, instellen op 0,2, en kijken hoe dat het beeld verandert. Laten we op Uitvoeren klikken en je kunt een klein verschil zien.
We kunnen met de parameters spelen om het beeld te krijgen waarnaar we op zoek zijn. We kunnen ook verschillende categorieën gebruiken, zoals duidelijkheid, wat ons de duidelijkheidscategorieën geeft en ons ook een iets andere kijk op die spreiding geeft.
Correlatie met andere variabelen
Mogelijk bent u ook geïnteresseerd in hoe andere waarden dan prijs en karaat gecorreleerd zijn. Dus als we kijken naar een spreidingsplot voor table , wat de numerieke dimensie is van die diamant en depth , kunnen we zien dat er geen één-op-één lineaire relatie is.
We kunnen ook kijken naar twee andere variabelen zoals diepte en prijs . Op basis van de grafiek kunnen we zien dat de datacenters rond het middelste gebied liggen.
Python-correlatie: een regressieplot maken
Laten we verder gaan met wat we een regressieplot noemen waarmee we de lineaire relatie tussen twee variabelen kunnen evalueren.
Dus in plaats van de scatterplotfunctie gebruiken we deze keer de regplotfunctie . We zullen dezelfde structuur doorgeven: onze gegevens en vervolgens de X- en Y-variabelen.
Het resultaat toont een lijn die de lineaire relatie tussen de variabelen meet. Het is ook duidelijk hoe onze waarden rond die regressielijn cirkelen.
Dit is momenteel geen erg mooie visual, maar we kunnen het nog steeds optimaliseren om een betere te krijgen. We kunnen bijvoorbeeld een stijl doorgeven met behulp van de Matplotlib-variabele. We kunnen de stijl veranderen in een donkere achtergrond met behulp van de code plt.style.use('dark_background').
Neem diezelfde regressiegrafiek en geef enkele trefwoorden door voor onze spreiding en lijn. Laten we kleur rood en een lijndikte van 1 gebruiken voor onze regressielijn. Dit wordt geschreven als line_kws={“color”: “red”, 'linewidth': 1).
Laten we voor onze scatter-trefwoorden de kleur instellen op wit, de randkleur op grijs en de dekking op 0,4 om te worden geschreven als scatter_kws={“color” : “white”, 'edgecolor': 'grey', 'alpha': 0,4 ).
Deze parameters geven ons een klein beetje een ander beeld dat hieronder wordt getoond.
Python-correlatie: een correlatiematrix maken
Tot nu toe hebben we gekeken naar spreidingsdiagrammen met slechts twee variabelen, maar misschien willen we ook kijken naar al onze variabele correlaties.
Dit wordt uitgevoerd met behulp van onze dataset met een dataframefunctie genaamd correlatie, weergegeven als dataset.corr. En wat we krijgen is een matrix die ons correlaties laat zien op elk van deze variabelen.
De getallen in de bovenstaande tabel vertegenwoordigen de Pearson-correlatie , die zich richt op de lineaire relatie tussen al deze variabelen.
Maar als we niet zeker weten of onze variabelen volledig lineair gecorreleerd zijn, kunnen we een ander type correlatie gebruiken dat meer gericht is op impact dan op het lineaire deel. Het wordt een Spearman-correlatie genoemd .
En we kunnen informatie over al deze dingen zien door op Shift + Tab te drukken. Als u naar beneden scrolt, kunnen we de Spearman-rangcorrelatie, de Pearson-correlatiecoëfficiënt en heel wat verschillende manieren zien om onze gegevens te meten.
Terugkijkend op onze correlatiematrix eerder, weten we dat prijs en karaat vrij goed gecorreleerd zijn.
Ze komen uit onze plot hier en laten zien dat ze vrij lineair zijn op 0,92.
Als we nu de Spearman-correlatie gebruiken, zal de impact of de rang een beetje hoger zijn op 0,96.
Deze verschillende soorten correlaties stellen ons in staat om verschillende attributen van correlatie tussen die variabelen op te pikken.
Meerdere x enkele variabele correlatie
Soms willen we geen matrix zien, omdat we ons meer zorgen maken over de correlatie van alle variabelen met slechts één variabele (bijvoorbeeld prijs).
Wat we dan kunnen doen, is de prijs isoleren met behulp van dataset.corr gevolgd door 'price' .
Nu kunnen we zien dat de prijs gecorreleerd is met al onze verschillende numerieke variabelen in deze tabel. En de reden dat we dit misschien willen doen, is voor visuele plots.
Laten we dus eens kijken naar het visualiseren van onze correlatiematrix met een warmtekaart.
Python-correlatie: een hittekaart maken
We kunnen deze correlatievariabele doorgeven aan een Seaborn- warmtekaart met behulp van de functie sns.heatmap.
Dit geeft ons een heatmap die er zo uitziet.
Nogmaals, we kunnen parameters toevoegen aan onze voorkeur. We kunnen de parameter linewidths=1 doorgeven en annotaties toevoegen met annot=True .
En je kunt zien dat onze heatmap er nu heel anders uitziet. Op dit moment hebben we een vrij mooie hittekaart.
We kunnen het nut inzien van het toevoegen van de regels en de annotaties. Nogmaals, als we op Shift + Tab drukken, verschijnen alle verschillende parameters die daarin kunnen worden opgenomen.
Probeer vervolgens method='spearman ' in onze code toe te voegen, zodat u weet hoe u een ander type correlatie kunt gebruiken, afhankelijk van uw gebruikssituatie.
Warmtekaart met één variabele
Vervolgens isoleren we één variabele en maken we een heatmap met de correlatie van negatief naar positief.
Dit geeft ons deze heatmap hieronder.
Ook de styling kunnen we zeker veranderen. We kunnen bijvoorbeeld de parameter cmap gebruiken als cmap='coolwarm' . Dit verandert de kleuren in koel en warm en elimineert ook onze zwarte achtergrond.
Als we op Uitvoeren klikken , krijgen we deze heatmap hieronder. Voor koel hebben we de blauwe en voor warm hebben we de rode balken.
We kunnen ook de richting wijzigen om onze kaart uit te lijnen met de kleurenbalk. Dit wordt gedaan door onze parameter sort_values te bewerken en ascending=False toe te voegen .
Dit gaat van de meest gecorreleerde (de rode balk) naar de minst gecorreleerde (de blauwe balk).
Python-correlatie: een visuele trap maken
Een geavanceerde manier om onze correlatie te visualiseren, is door een masker te gebruiken om alle correlaties die we al hebben gedaan te blokkeren.
We kunnen dit doen met Numpy, door enkele WAAR- en ONWAAR-functies te gebruiken om een trap visueel te maken voor onze correlaties.
Hier is hoe de resultaten eruit zouden moeten zien.
Laten we eens kijken hoe we dit kunnen overzetten naar LuckyTemplates.
Trap visueel in LuckyTemplates
Open eerst LuckyTemplates. Ik heb een avocadodataset binnengebracht zodat we een ander beeld kunnen zien. U kunt deze dataset zien onder het deelvenster Velden. Initialiseer de Python- visual door op het Python-pictogram onder het deelvenster Visualisaties te klikken.
We moeten de dataset maken door alle numerieke variabelen toe te voegen die worden aangegeven met de ? . Voeg ze toe door op de selectievakjes naast deze variabelen te klikken.
Nu we een dataset hebben, kunnen we naar onze Jupyter-notebook gaan en deze code kopiëren die we eerder hadden.
Vervolgens kopiëren we de code naar de Python-scripteditor in LuckyTemplates.
Vervolgens kiezen we onze visual, die de trapvisual zou zijn. We gaan terug naar Jupyter, kopiëren de code die we gebruikten voor onze visuele trap.
Plak de code in de Python-scripteditor.
Het laatste dat u moet doen, is ervoor zorgen dat we plt.show gebruiken , wat vereist is in uw Python-script. Voeg plt.show toe in de laatste regel van de code en klik op het pictogram Uitvoeren in de rechterbovenhoek van de scripteditor.
Voor een groter beeld rekt u de doos een beetje uit zodat we het script in de hoek kunnen zien lopen. We hebben onze visual voor onze heatmap, die er best goed uitziet.
En in LuckyTemplates kunnen we zeker zien hoe die visual kan veranderen volgens de dataset. We kunnen bijvoorbeeld op het Slicer- pictogram klikken in het deelvenster Visualisaties en naar Type gaan in het deelvenster Velden.
Het geeft ons de twee typen in onze dataset, de conventionele en organische . Als we op één type klikken, bijvoorbeeld organisch , zie je dat de heatmap verandert.
Wijzigingen zijn ook van toepassing wanneer we op het conventionele type hierna klikken.
Onthoud dat we een categorische variabele in de dataset van ons Python- script nodig hebben om deze filters te laten werken. Zoals we kunnen zien, bevat de dataset die we hebben gemaakt het type , waardoor we de visual op die manier kunnen filteren.
Uw gegevensmodelrelaties opbouwen in LuckyTemplates
Tekstanalyse in Python | Een introductie
Python-scripting in LuckyTemplates-gegevensrapporten
Conclusie
In deze blog heb je geleerd hoe je correlaties in Python en LuckyTemplates kunt visualiseren met behulp van verschillende methoden, zoals Pearson-correlatie en Spearman-rangcorrelatie.
U kunt nu scatterplots, regressieplots, correlatiematrix, heatmaps en trapvisuals maken om de beste visual voor uw dataset te krijgen. U kunt ook verschillende parameters gebruiken om de stijlen en afbeeldingen te verbeteren.
Al het beste,
Wat is zelf in Python: voorbeelden uit de echte wereld
Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.
In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.
Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.
In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.
Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.
Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.
Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.
Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.
Wat is LuckyTemplates Gateway? Alles wat u moet weten