Wat is zelf in Python: voorbeelden uit de echte wereld
Wat is zelf in Python: voorbeelden uit de echte wereld
Bij het werken met een dataset die uit meerdere variabelen bestaat, is het het beste om te begrijpen hoe deze verschillen en op elkaar inwerken. In deze zelfstudie laat ik zien hoe je de Seaborn-functie in Python kunt gebruiken om alternatieven voor de verdeling van een variabele te visualiseren. Je kunt de volledige video van deze tutorial onderaan deze blog bekijken.
Inhoudsopgave
Seaborn-functie gebruiken in Python
Ik zal dit demonstreren op de MPG-dataset, die beschikbaar is binnen Seaborn. Dus laten we doorgaan en alle pakketten importeren die we nodig hebben, evenals alle gegevens die we nodig hebben. We gaan hier kijken naar de verdeling van de MPG-variabele en hoe deze variëren. De twee gebruikelijke manieren om dat te doen zijn histogram en de boxplot .
Dus ik ga de functie displot gebruiken (DIS voor distributie). Vervolgens moet ik specificeren welke dataset het is en welke variabele we op de X-as gaan zetten. En daarmee hebben we de distributie.
Dit is redelijk goed. Dit is heel gemakkelijk om de volledige verdeling en de vorm te zien. Een paar tekortkomingen met deze visualisatie van de distributie wel. Een daarvan is dat het aantal bakken dat we gebruiken aantoonbaar willekeurig is. Het andere is dat we niet direct kunnen weten wat het gemiddelde van de variabele is.
Het leuke van Seaborn is dat als ik eenmaal heb ingesteld welke variabele ik wil, waar en welke dataset ik gebruik, het echt plug-and-chug is met het maken van nieuwe visualisaties. Nu gaan we naar de boxplot. Boxplot gebruikt geen bakken.
Het idee hier is dat we de kwartielwaarde heel duidelijk kunnen zien, specifiek de mediaan, en we zien de andere kwartielwaarden. We zien dat er een uitschieter is, en dit is een heel precies plot. De boxplot van het probleem is dat het nauwkeurig is met dingen waar veel zakelijke gebruikers over het algemeen waarschijnlijk niet om geven.
Dus deze plot is een beetje moeilijk voor niet-statistische mensen om echt veel waarde te krijgen. En nogmaals, het verzamelt de gegevens, dus we verliezen veel details. Het is moeilijk om precies te weten hoe dit eruit ziet. We kunnen zien dat er een uitschieter is. We kunnen zien dat de meeste waarden hier zijn. Het histogram geeft ons een meer intuïtieve manier om daarnaar te kijken.
Dit zijn beide goede percelen. Ze hebben allebei hun doel. Laten we eens kijken naar enkele alternatieven met behulp van Seaborn om te visualiseren. We blijven bij MPG voor de distributie van die variabele.
Net als bij boxplot, kunt u hier zien dat de mediaan duidelijk is gemarkeerd. We zien ook het kwartielbereik en we kunnen beter zien wat de algehele verdeling is. Dit is ook een soort histogram. Het wordt een kerneldichtheidsschattingsplot of KDE-plot genoemd. Het is een vloeiende versie van het histogram. We gebruiken geen willekeurige binning. Alles is hier afgevlakt tot een continu bereik.
Dit is een soort hybride van deze twee benaderingen en lost echt enkele van de tekortkomingen op. Afhankelijk van je publiek kunnen ze er echter moeite mee hebben om hiernaar te kijken. Ze zijn er misschien niet aan gewend, maar het heeft enkele voordelen ten opzichte van de traditionele benaderingen.
Bij deze benadering voegen we de gegevens niet meer samen. Elk afzonderlijk punt wordt geplot. Hiervoor zijn elementen van de spreidingsplot nodig, toch? Als je denkt aan een scatterplot, plotten we elk afzonderlijk punt op de X- en Y-coördinaten.
Als laatste hebben we de stripplot . Wat we hier doen, is die verdeling nemen en we verspreiden willekeurig. Dit is een willekeurig proces. We proberen die distributievorm niet meer te maken. Het probleem hiermee is dat al deze klonten in elkaar overlopen, dus dat is misschien niet goed, afhankelijk van wat je probeert te doen. Misschien wil je deze per groep inkleuren of iets dergelijks, dus daar is een mogelijkheid voor.
We kunnen de jitter wijzigen in .25 en zien dat naarmate we de jitter vergroten, deze punten een beetje meer worden verspreid.
Elke keer dat ik ze run, zien ze er echter iets anders uit. Dus als je daar vanaf wilt komen en het elke keer hetzelfde wilt maken, kun je numpy importeren als np . Wat dit doet, is het instellen van een willekeurige seed.
Elke keer als ik iets uitvoer dat met willekeurige getallen te maken heeft, gebruikt het dezelfde willekeurige getallen. Dingen veranderen niet willekeurig wanneer je het opnieuw uitvoert. Dit kan goed zijn voor elke vorm van simulatie die je doet, wat ook veel gebeurt in datawetenschap en -analyse met deze visualisatie. Dus nu, elke keer dat ik dit plot uitvoer, krijgen we daar hetzelfde beeld van.
Ik kan hier ook Y-oorsprong toevoegen, en nu zien we dat we een bivariante verdeling maken. We nemen de kilometerverdeling en segmenteren die op herkomst.
Python-script gebruiken in LuckyTemplates
Python-scripting in LuckyTemplates Gegevensrapporten
Gegevenssets in panda's met ProfileReport() | Python in LuckyTemplates
Conclusie
Dit zijn alternatieven voor het visualiseren van distributies van één variabele. Ze hebben allemaal hun voor- en nadelen. Dit wil niet zeggen, gebruik nooit de boxplot of het histogram, maar het zegt alleen dat hier enkele andere opties zijn, afhankelijk van wat je probeert te laten zien.
Ze zijn allemaal vrijwel net zo eenvoudig te maken als alle andere wanneer we de Seaborn-functie in Python gebruiken. Als je meer wilt weten over Python , bekijk dan de onderstaande links.
Al het beste!
Wat is zelf in Python: voorbeelden uit de echte wereld
Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.
In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.
Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.
In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.
Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.
Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.
Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.
Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.
Wat is LuckyTemplates Gateway? Alles wat u moet weten