Wat is zelf in Python: voorbeelden uit de echte wereld
Wat is zelf in Python: voorbeelden uit de echte wereld
Parallelle coördinatenplots zijn een handig visualisatiehulpmiddel dat wordt gebruikt om relaties weer te geven tussen meerdere variabelen die dezelfde numerieke gegevens delen. In LuckyTemplates worden deze plots gemaakt met zeer eenvoudige Python-code die u kunt gebruiken en eenvoudig kunt maken en stileren.
In de blog van vandaag leren we hoe we multivariate of parallelle coördinatenplots kunnen maken met behulp van Python . We zullen het proces stap voor stap doorlopen, van het voorbereiden van de gegevens tot het aanpassen van de plot voor een betere leesbaarheid. Je kunt de volledige video van deze tutorial onderaan deze blog bekijken .
Inhoudsopgave
Parallelle coördinatenplots in Python: voorbeeld 1
Dit is ons eerste perceel. Het toont onze drie variabelen: variabele A, B en C, en de twee lijnen die item 1 en 2 vertegenwoordigen.
Dat betekent dat we twee datasets hebben, een voor Item 1 en een andere voor Item 2. En voor elke dataset hebben we onze drie variabelen.
Laten we naar de gegevens kijken om beter te begrijpen hoe de plot was gestructureerd.
Begin met het markeren van de grafiek. Klik op Gegevens.
Er zou een tabel met zeer eenvoudige gegevens moeten verschijnen. Het is gemaakt met behulp van de optie Tabel invoegen. We kunnen zien dat in de kolommen variabelen A, B en C zijn voor elk item die in elke rij zijn gescheiden.
We hebben eenvoudige gegevens, maar we kunnen er iets heel veelzeggends van maken. In onze plot kunnen we bijvoorbeeld vaststellen dat de relatie tussen de gegevens vrij "laag" is.
Ter illustratie kunnen we deze grafiek vergelijken met onze gegevens. Variabele B in item 1 is 100 en 115 in item 2, zoals weergegeven in de grafiek.
We kunnen ook identificeren hoe de items en variabelen gerelateerd zijn. We kunnen bijvoorbeeld gemakkelijk zien dat variabele A lager is dan B, en dat C de laagste van de drie is.
De Plot Python-code
Laten we nu verder gaan met de Python- code die wordt gebruikt voor de eigenlijke plot.
Begin met het kiezen van Python-visual in het deelvenster Visualisaties .
Markeer onze eerste grafiek om de Python-scripteditor te openen .
Eerst importeren we matplotlib.pyplot en slaan het op als een variabele plt.
Vervolgens brengen we de pandas.plotting -functies in. Pandas dient als een bibliotheek voor gegevensmanipulatie in LuckyTemplates. Het wordt voornamelijk gebruikt om gegevens te manipuleren, maar het heeft ook plotfuncties.
Laten we parallelle_coördinaten importeren uit pandas.plotting . Parallel_coordinates zal de primaire functie zijn voor het maken van de grafiek.
De plot maken in Python
In regel 13 documenteren we wat we gaan doen door # make a plot te schrijven.
We gebruiken parallelle_coördinaten en geven de dataset door.
In regel 3 kunnen we zien dat de dataset is gemaakt met behulp van de functie pandas.DataFrame ( ) . Vervolgens voegen we item, variabele A, variabele B en variabele C toe, die vervolgens worden weerspiegeld in onze lijst met waarden .
In regel 4 wordt de dataset ontdubbeld met behulp van dataset.drop_duplicates ( ).
We kunnen naar het deelvenster Visualisaties gaan om de waarden te zien die we hebben toegevoegd.
Het verwijderen van een van deze waarden heeft invloed op onze beelden. Als we bijvoorbeeld variabele C verwijderen, zullen de coördinaten dienovereenkomstig veranderen, wat ons laat zien hoe de waarden werken.
Laten we onze variabele C terugbrengen door het vakje ernaast aan te vinken onder Gegevens in het deelvenster Velden .
Geef vervolgens de functie parallel_coordinates door die een paar verschillende argumenten nodig heeft. In ons geval zijn de dataset en het item nodig , die het type en de dimensie uit onze dataset zullen geven.
Als we Item uit onze functie verwijderen en uitvoeren, werkt de visual niet.
We krijgen een Python-scriptfout die zegt dat de functie parallel_coordinates ( ) 1 vereist positioneel argument mist, namelijk de class_column.
Dus laten we Item weer toevoegen. Omdat het positioneel is, hoeven we geen klassecoördinaten te schrijven. We kunnen de code uitvoeren als we klaar zijn.
De plot in Python tonen
De volgende stap is om de plot te laten zien, dus in regel 16 documenteren we wat we gaan doen door te schrijven # toon de plot.
Bedenk dat we matplotlib.pyplot eerder hebben geïmporteerd en opgeslagen als plt. We hebben dat gedaan omdat we de functie plt.show( ) nodig hebben om onze plot te tonen.
Parallelle coördinatenplots in Python: voorbeeld 2
Onze tweede plot is een iris-dataset met petal_length, petal_width, sepal_length en sepal_width. Het heeft een beetje meer stijl in vergelijking met de eerste grafiek.
Deze dataset is gemaakt met Python-code.
Om onze gegevens te bekijken, klikt u op Gegevens transformeren en gaat u naar de iris_dataset.
De gegevensset bevat kolommen voor de dimensies: kelkbladlengte , kelkbladbreedte , bloembladlengte en bloembladbreedte . Het heeft ook een kolom voor het soorttype .
De Dataset Python-code
Onze gegevens werden eenvoudig binnengebracht met behulp van Python-code. Ga naar Source om het Python-script te tonen.
Onze Python-code heeft slechts twee regels. In de eerste regel hebben we seaborn geïmporteerd en opgeslagen als variabele sns . We noemden onze dataset iris_dataset en gebruikten de sns-variabele om de dataset te laden met behulp van de functie sns.load_dataset('iris') .
Klik op OK om de gegevens te krijgen die we hierboven hebben gezien. Navigeer door de gegevens en als we klaar zijn, kunnen we de gegevensset sluiten door naar Sluiten en toepassen> Sluiten te gaan .
Plots stylen in Python
Klik op onze tweede plot om de Python-scripteditor te openen voor onze meer gestileerde grafiek.
We beginnen met het importeren van matplotlib.pyplot als plt.
Vervolgens gebruiken we de functie plt.style.use ('dark_background') om de visual te stylen.
We kunnen de achtergrond eenvoudig aanpassen op basis van onze voorkeursstijl met behulp van matplotlib's Style sheet reference . In ons geval hebben we een donkere achtergrond gebruikt.
Laten we ook proberen ggplot te gebruiken , wat een veelgebruikte stijl is.
Als we het uitvoeren, geeft het ons een beeld dat er zo uitziet.
Laad vervolgens de pandas-functie voor de grafiek door parallelle_coördinaten te importeren uit pandas.plotting.
Om de plot te maken, brengen we de dataset binnen en stellen we onze soort in als de klasse .
Vergeleken met onze eerste plot, voegen we een extra parameter toe, namelijk de kleurenkaart om verschillende kleuren te krijgen. Geef dat door met behulp van de matplotlib-variabele plt.get_cmap.
Er zijn veel matplotlib-kleurvariabelen waaruit u kunt kiezen in de Colormap-referentie van de matplotlib .
We gebruiken momenteel bijvoorbeeld Set 2 van Qualitative colormaps, maar we kunnen dat ook wijzigen in andere kleuren, zoals hsv van Cyclic colormaps.
Klik op uitvoeren om een plot te krijgen dat er zo uitziet.
Hsv ziet er niet erg goed uit op onze gegevens, maar we kunnen spelen totdat we de meest geschikte kleurenkaart voor onze plot hebben gevonden.
Python-correlatie: gids bij het maken van visuele
datasets in panda's met ProfileReport() | Python in LuckyTemplates
Seaborn-functie in Python om de distributie van een variabele te visualiseren
Conclusie
In deze zelfstudie hebben we de basisprincipes behandeld van het maken van parallelle coördinatenplots in Python. We hebben het proces doorlopen van het voorbereiden van de gegevens, het maken van de plot en het aanpassen van de plot voor een betere leesbaarheid.
Parallelle coördinatenplots zijn een krachtig hulpmiddel voor het visualiseren van hoogdimensionale gegevens en kunnen op verschillende gebieden worden gebruikt, waaronder financiën, engineering en machine learning. Nu we weten hoe we parallelle coördinatenplots in Python kunnen maken , kunnen we ze gaan gebruiken om onze eigen gegevens beter te begrijpen en te visualiseren.
Al het beste,
Gaelim Holland
Wat is zelf in Python: voorbeelden uit de echte wereld
Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.
In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.
Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.
In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.
Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.
Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.
Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.
Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.
Wat is LuckyTemplates Gateway? Alles wat u moet weten