Wat is zelf in Python: voorbeelden uit de echte wereld
Wat is zelf in Python: voorbeelden uit de echte wereld
Deze blog laat zien hoe u een cumulatieve distributieplot gebruikt , ook wel bekend als Empirical Cumulative Distribution Function of ECDF-plots, en laat de voordelen zien van het gebruik van deze plotvariatie ten opzichte van andere plottypen. Je kunt de volledige video van deze tutorial onderaan deze blog bekijken .
De meeste mensen geven de voorkeur aan ECDF-plots boven om de gegevens te visualiseren terwijl ze elk gegevenspunt direct plotten, en deze functie maakt het voor de gebruiker gemakkelijk om met de plot te werken. Vandaag leer je hoe je een ECDF gebruikt in Python en LuckyTemplates en hoe je je presentaties en rapporten over datadistributie verbetert.
Inhoudsopgave
Soorten distributiepercelen
Ik begin met het filteren van mijn gegevens op een bepaalde dag, zaterdag, en we kunnen hieronder al deze Python-plots zien die worden gebruikt voor het beschrijven van distributies. We hebben hier onze ECDF-plot, een histogram, een KDE-plot en een boxplot.
Al deze grafieken beschrijven hoe gegevens worden verspreid of verdeeld. Als we bijvoorbeeld naar beneden gaan en naar het histogram kijken, kunnen we zien dat de meeste van deze hoge bakken zich zullen bevinden waar onze gegevens zich bevinden.
Met ongeveer $ 3,50 hebben we de hoogste bak voor onze fooiengegevens in onze onderstaande dataset.
We kunnen ook een KDE-plot gebruiken die ons een andere maatstaf geeft als we naar distributie kijken. Histogram gaat over het aantal dat in deze bakken komt te staan, terwijl KDE over dichtheid gaat.
Met een KDE-plot kunt u zien waar de meeste van onze gegevens zich bevinden door de grootste dichtheid of de hoogste uitstulping in de plot te spotten, als u wilt. Dus in de bovenstaande afbeelding kunnen we zeggen dat het ergens tussen $ 2 en $ 4 wordt verdeeld.
Hetzelfde geldt voor een boxplot, die laat zien dat de verdeling $ 2 tot $ 4 is, en dit is waar de meeste van onze gegevens zullen zijn. Het gebruikt een mediaan, de horizontale lijn die de box verdeelt, om ons een idee te geven van waar de grootste verdeling is.
En dan hebben we de ECDF-grafiek waar je aan de linkerkant van de y-as het woord Proportion kunt zien , dat onze percentielen vertegenwoordigt. Op basis van de plot kijken we voor $ 3,50 naar ongeveer 50% van onze gegevens, en bij $ 5 en lager wordt 80% van onze gegevens gedistribueerd.
Histogram-plotcode
Nu zal ik je de code laten zien voor elk van deze plots, te beginnen met het histogram. Ze hebben allemaal zeer vergelijkbare en herhaalbare codering , dus u kunt ze snel ophalen met behulp van één code, zoals een sjabloon.
We moeten eerst Seaborn importeren en opslaan als sb, gevolgd door matplotlib.pyplot als plt. We gebruiken een achtergrondstijl genaamd ggplot en die variabele matplotlib om verschillende stijlen door te geven.
In de onderstaande afbeelding kunnen we bijvoorbeeld zien dat we in de 11e regel een titel toevoegen voor het histogram en maatstreepjes in de volgende regels. De yticks en xticks vertegenwoordigen dienovereenkomstig de x- en y-groottes.
In de 14e regel gebruiken we een Seaborn-variabele om de functie door te geven die die specifieke plot binnenbrengt, zoals de histplot in het bovenstaande voorbeeld, die een histogramplot vertegenwoordigt. Vervolgens geven we de gegevens van de 4e regel door aan de functie als een gegevensset.
Alles wat u in de waarden brengt, vertegenwoordigt uw dataset en zal de duplicaten laten vallen. Dan gebruiken we x voor de tips en een tint, waarmee je , samen met seaborn, je gegevens per categorie kunt scheiden. Als we teruggaan naar ons beeld, kunnen we zien dat het categorieën heeft, waaronder de, tijd of roker.
KDE-plot
Voor de KDE-plot is alles bijna identiek. We hoeven alleen een nieuwe parameter met de naam shade door te geven om die gearceerde look te krijgen. Anders dan dat, zijn de tint, gegevens en de rest hetzelfde.
Met de Box-plot is het grotendeels vergelijkbaar met andere plots, afgezien van een paar kleine verschillen. Hier gebruiken we de boxplot-functie waarbij x de dag is en y de tips. We gebruiken ook geen tint voor deze plot.
Het is dus dezelfde structuur als de ECDF-plot en het enige verschil zit in de Seaborn-variabele, waar we een ECDF-plot doorgeven en tint als dag gebruiken. Maar we kunnen die tint ook veranderen in een andere categorie die we hebben, zoals roker.
Als we deze categorie doorgeven, krijgen we een ECDF-plot met twee verschillende lijnen. In deze verdelingen kunnen we zien dat de rokers meer rekening houden met onze specifieke lijnbreedte.
Niet-rokers hebben honderd procent van die gegevens onder $ 6, terwijl rokers het voor $ 6 hebben. Het is dus interessant dat onze rokers op een bepaalde dag een grotere fooi kunnen geven.
Styling ECDF-plots
Nu kunnen we onze ECDF-plots verder vormgeven om ze representatiever te maken. In de onderstaande afbeelding zijn verschillende ECDF-plots weergegeven. In het eerste plot heb ik de lijnen groter gemaakt en een ander kleurenpalet gebruikt.
In de eerste plot gebruikte ik verschillende parameters binnen de functie. Zoals je hieronder kunt zien, heb ik in het palet de zomer doorgegeven en de lijndikte 5.
Ik heb zaterdag en zondag ook vergeleken, daarom zijn er twee verschillende groene lijnen. Hier kunnen we zien dat de fooi van $ 3 zich op het 45e percentiel bevindt voor zondag en het 70e percentiel voor donderdag, wat ons vertelt dat mensen de neiging hebben om op zondag hogere fooien achter te laten.
We kunnen ook de X- en Y-as verwisselen, de proportie en tip in onze plot verwisselen en het palet wijzigen, net als in de onderstaande afbeelding.
Hier kunnen we zien dat de fooi van $ 2 op het 20e percentiel voor zondag staat, de paarse lijn in de plot. De gegevens zijn dus hetzelfde als bij de vorige ECDF-plot en alleen de presentatie is anders.
We hebben nu een andere plot met dezelfde dataset en behoudt de oorspronkelijke asposities zoals weergegeven in de afbeelding hierboven. Het verschil deze keer is dat de richting van de lijnen omgekeerd is.
ECDF-plotstijl
Als we naar de code kijken, geven we alleen de parameter complementair is gelijk aan = waar door. Met deze actie kunnen we zeggen dat in het bereik van $ 2 en hoger 80% van onze gegevens wordt gedistribueerd, in plaats van te zeggen dat onder het bereik van $ 2 20% van onze gegevens wordt verspreid. Nogmaals, het zijn dezelfde gegevens met een ander uiterlijk of een andere manier van presenteren.
En in onze vierde en laatste ECDF-plot gebruiken we Tellen in plaats van Proportie.
Deze aanpak is handig als we meer dan een paar percelen hebben. Als we naar de telkolom in de onderstaande afbeelding kijken, kunnen we zien dat er niet veel waarnemingen zijn op vrijdag, wat ons vertelt dat mensen die dag niet veel fooien achterlaten.
ECDF Plots Code Essentials
Als we naar de code kijken, vind je Seaborn , wat het belangrijkste is voor het maken van dit specifieke plot. We hebben ook matplotlib.pyplot voor styling, die u kunt opslaan als een variabele met de naam plt .
We kunnen die variabele vervolgens gebruiken om verschillende stijlen voor onze specifieke plot te maken, zoals het toevoegen van titels en lettergroottes. Het grootste deel van uw code is uw ECDF-plotfunctie die we inbrengen met Seaborn.
Scatterplot in R-script: door
de gebruiker gedefinieerde functies van Python maken en importeren | Een overzicht
GGPLOT2 In R: visualisaties met ESQUISSE
Conclusie
Dat waren de manieren waarop u verschillende distributieplots kunt gebruiken, waaronder Histogram-, KDE-, Box- en ECDF-plots. Je hebt ook vier manieren geleerd om een ECDF-plot te presenteren met dezelfde dataset. U kunt elke benadering gebruiken, afhankelijk van uw voorkeur.
Denk er altijd aan om de nodige bibliotheken mee te nemen voor het maken van uw plot en om de juiste functie te gebruiken. Daarna is het alleen een kwestie van de visuele en stilistische aspecten van je plot veranderen, zoals de positionering van de as en de tinten.
Al het beste,
Wat is zelf in Python: voorbeelden uit de echte wereld
Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.
In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.
Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.
In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.
Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.
Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.
Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.
Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.
Wat is LuckyTemplates Gateway? Alles wat u moet weten