Wat is zelf in Python: voorbeelden uit de echte wereld
Wat is zelf in Python: voorbeelden uit de echte wereld
Een van de meest voorkomende vragen die u als data-analist tegenkomt, is wat de beste manier is om een bepaalde dataset te verkennen. Dit is vooral een belangrijke overweging als u alle gegevens wilt samenvoegen in een rapport dat gemakkelijk te interpreteren is door uzelf of uw team. In deze zelfstudie laat ik zien hoe u op efficiënte wijze datasets in Panda's kunt verkennen met behulp van ProfileReport(). Je kunt de volledige video van deze tutorial onderaan deze blog bekijken.
Wat doe je als je een dataset krijgt? Hoe verken je de dataset? In de eerste plaats, als u alles wilt samenvoegen in een gemakkelijk leesbaar rapport voor uzelf, voor collega's, enz., moet u met veel dingen rekening houden.
Eerst denk je na over wat voor soort variabelen het zijn, want dat zal van invloed zijn op hoe je ze analyseert en hoe je ze behandelt. Data betekent wat wordt gegeven. Wat er dus ontbreekt, zijn de gegevens die we niet hebben. Een ander ding is om die relaties te visualiseren. Hoe zien ze eruit? We willen die visualisatiekracht vroeg en vaak gebruiken.
Dit zijn veel in elkaar grijpende complexe vragen. Het goede is dat er een profileringsrapportfunctie beschikbaar is die ons die antwoorden zal geven. Laten we dat allemaal eens bekijken in Python.
Inhoudsopgave
Verken gegevenssets in panda's met behulp van de functie ProfileReport ().
Eerst gaan we de dataset laden.
Vervolgens gaan we vanuit pandas_profiling dit ding genaamd profielrapport importeren. Als u hier een foutmelding krijgt, moet u deze waarschijnlijk installeren. Ik gebruik Anaconda. Ik stel voor dat je dat ook gebruikt. Laten we dit uitvoeren en het dan afdrukken.
Dus hier is het. We hebben een overzicht . Dit geeft ons een uitsplitsing van de soorten variabelen. We hebben de statistieken van de dataset. We zien het aantal rijkolommen, enzovoort, enzovoort. Het leuke aan dit rapport is dat het een soort one-stop-shop is en dat het er ook nog eens heel mooi uitziet. Het heeft een zeer aantrekkelijke presentatie.
We scrollen hier naar beneden en we hebben de variabelen . We krijgen een visualisatie en we kunnen meer details over de variabele wisselen. We hebben vlaggen die wijzen op dingen die misschien een beetje ongewoon zijn. We hebben deze waarschuwingen ook en vele andere functies die ons meer informatie zullen geven. En dit is voor elke variabele.
Terwijl we verder naar beneden scrollen, vinden we Interacties, waar spreidingsplots worden gemaakt om de gegevens te visualiseren.
En dan hebben we Correlaties , die de relatie samenvatten.
Het volgende is Ontbrekende waarden , die erg belangrijk zijn. Zoals u kunt zien, hebben we hier enkele ontbrekende waarden en we willen weten waarom. Deze visualisaties hier zijn bedoeld om ons daarbij te helpen. We kunnen door elke visual klikken en de gegevens analyseren.
Als laatste hebben we het voorbeeld. We kunnen dit op veel manieren krijgen, maar het enige wat we doen is gewoon de eerste paar rijen afdrukken, wat goed is om te weten.
MultiIndex in panda's voor gegevens op meerdere niveaus of hiërarchische gegevens
Voorbeeldgegevenssets laden in Python
Python in LuckyTemplates: installeren en instellen
Conclusie
Zo verkent u datasets in Panda's met behulp van de functie ProfileReport(). Er zijn veel manieren om de gegevens op te splitsen en te dobbelen. Denk aan alle combinaties van permutaties van de gegevens. Dit zal niet alles voor je kunnen doen, maar het is een heel goed begin.
Wanneer we gegevens verkennen, is het echt een iteratief proces. Er is geen eenmalige magische pil, hoe graag we er ook een zouden willen. De ProfilerReport() is echter echt een geweldig hulpmiddel. We krijgen veel informatie en slechts één regel code. Dit is een gratis tool, dus ik hoop dat je het in je eigen werk kunt gebruiken. Laat ons weten hoe je dat doet.
Al het beste!
Wat is zelf in Python: voorbeelden uit de echte wereld
Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.
In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.
Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.
In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.
Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.
Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.
Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.
Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.
Wat is LuckyTemplates Gateway? Alles wat u moet weten