Hoe voorbeeldgegevenssets in Python te laden

In dit bericht gaan we bekijken hoe voorbeeldgegevenssets in Python kunnen worden geladen. Dit lijkt misschien niet het meest glamoureuze onderwerp, maar het is eigenlijk best belangrijk. Idealiter heb je een aantal datasets in Python waarop je kunt oefenen als je nieuwe concepten leert. Je kunt de volledige video van deze tutorial onderaan deze blog bekijken.

Als je je code gaat delen , wilt documenteren wat je hebt gedaan of hulp nodig hebt , is het echt een goed idee om een algemeen beschikbare dataset te gebruiken om iets te bouwen wat een minimaal reproduceerbaar voorbeeld wordt genoemd .

Je krijgt een vooraf gebundelde code of script dat iemand anders op internet kan uitvoeren en je ermee kan helpen. Als je deze minimaal reproduceerbare voorbeelden niet produceert , word je geflambeerd op plaatsen als Stack Overflow, wat een beetje een schok kan zijn als je er niet bekend mee bent.

Hoe voorbeeldgegevenssets in Python te laden

Laten we eens kijken naar een paar manieren om deze minimaal reproduceerbare voorbeelden te bouwen en de datasets te verkrijgen. Er zijn een paar pakketten die u kunt gebruiken om een kant-en-klare dataset in Python te laden en die code te delen.

We zullen drie pakketten bekijken die het meest voorkomen. Laten we een blanco Jupyter-notebook opstarten en aan de slag gaan.

Hoe voorbeeldgegevenssets in Python te laden

Inhoudsopgave

Laad gegevenssets in Python vanuit Sklearn
Laad gegevenssets in Python vanuit Vega-gegevenssets
Laad gegevenssets in Python vanuit Seaborn
Conclusie

Laad gegevenssets in Python vanuit Sklearn

De eerste die we zullen bekijken heet Sklearn . Als je Anaconda gebruikt, hoef je dit niet te downloaden. Als u meer hulp wilt met Python, heeft LuckyTemplates een die u kunt volgen.

Ik ga ervan uit dat je al weet over zaken als pakketten, en ga vanaf daar verder. We gaan panda's en Sklearn binnenhalen, met name de dataset-submodule.

Hoe voorbeeldgegevenssets in Python te laden

We gaan een paar van deze datasets meenemen. Scikit-learn – een databibliotheek voor machine learning – noemt ze speelgoeddatasets. We gaan Boston laden, wat een dataset met huizenprijzen is. Wanneer we dit binnenbrengen, moeten we het als een dataframe hebben.

We moeten specificeren dat de gegevens en kolommen afkomstig zijn uit de Scikit-learn dataset, en de functievariabelen en de doelvariabelen scheiden.

Hoe voorbeeldgegevenssets in Python te laden

We zullen dit invoeren als een dataframe, zodat we ermee kunnen werken en er verschillende dingen mee kunnen doen. Panda is zo'n geweldig pakket om te kennen als LuckyTemplates-gebruiker.

Laad gegevenssets in Python vanuit Vega-gegevenssets

Een andere optie die we kunnen leren, is het Vega-datasetspakket. Deze is niet beschikbaar op Anaconda, maar we kunnen hem installeren via PIP. Dit is wat we zullen typen op de opdrachtregel om de Vega-datasets te installeren en om de lokale datamodule te installeren of te importeren.

Hoe voorbeeldgegevenssets in Python te laden

Sommige hiervan kunt u daadwerkelijk krijgen, maar u hebt een internetverbinding nodig. We halen degenen binnen die lokaal zijn geïnstalleerd door lokale gegevens te importeren en uit te voeren.

Hoe voorbeeldgegevenssets in Python te laden

Zoals je kunt zien, zijn er nogal wat datasets. Sommige hiervan zijn tijdreeksen, terwijl andere categorische of continue variabelen hebben. Laten we de dataset van de auto in een dataframe kiezen, zodat we de head-methode erop kunnen uitvoeren.

Hoe voorbeeldgegevenssets in Python te laden

Nu hebben we nog een voorbeelddataset die we kunnen gebruiken en delen.

Hoe voorbeeldgegevenssets in Python te laden

Laad gegevenssets in Python vanuit Seaborn

Seaborn is een ander pakket dat beschikbaar is in de Anaconda-distributie. Standaard staat Seaborn vooral bekend om datavisualisatie, maar het heeft ook een aantal geweldige voorbeelddatasets die u kunt gebruiken. Dit is wat we zullen typen om datasets te krijgen.

Hoe voorbeeldgegevenssets in Python te laden

Zoals je kunt zien, zijn er hier nogal wat datasets. We gaan door en gebruiken de gegevensset pinguïns en krijgen de eerste paar rijen opnieuw.

Hoe voorbeeldgegevenssets in Python te laden

Het resultaat is weer een dataset waarop we kunnen oefenen.

Hoe voorbeeldgegevenssets in Python te laden

Het idee hier is niet alleen om de datasets te hebben om op te oefenen. Als we enkele ontbrekende waarden zien, problemen hebben met het verwijderen van datasets, de categorische variabele willen invullen of een voorbeeld willen laten zien aan andere mensen zonder gevoelige gegevens te geven, kunt u gewoon een van deze openbaar toegankelijke datasets gebruiken die heel, heel gemakkelijk zijn voor mensen om te gebruiken en te delen. Dat is het idee van een minimaal reproduceerbaar exemplaar.

LuckyTemplates met Python-scripting om datumtabellen te maken
Python in LuckyTemplates: Python I installeren en instellen
voor LuckyTemplates-gebruikers - Nieuwe cursus in het LuckyTemplates Education Platform

Conclusie

Om samen te vatten: er zijn drie plaatsen waar u naar voorbeelddatasets kunt zoeken. Scikit-learn is een machine learning-pakket. Het is een beetje moeilijker om te converteren, maar als je dingen doet die te maken hebben met machine learning, dan is dit de plek om naartoe te gaan. Vega-datasets hebben ook een behoorlijk groot aantal datasets, vooral als je de methode gebruikt om datasets van internet te halen, maar het is relatief moeilijker om te laden, dus je hoeft alleen maar PIP te gebruiken in plaats van vooraf geïnstalleerd te hebben met Anaconda. Seaborn is de goede plek omdat het het dataframe laadt en het heeft veel veelzijdigheid als het gaat om het gebruik van voorbeelddatasets en reproduceerbare voorbeelden.

Stack Overflow heeft ook een zelfstudie over het schrijven van een goed minimaal reproduceerbaar voorbeeld of MRE, dus controleer dat als je iets online wilt plaatsen.

Weten waar je goede datasets kunt krijgen en een goede MRE delen is een heel belangrijke vaardigheid om als analist te hebben.

Als je genoten hebt van de inhoud die in deze specifieke tutorial wordt behandeld, abonneer je dan op het LuckyTemplates TV-kanaal. Er komt voortdurend een enorme hoeveelheid content uit van mijzelf en een reeks contentmakers - allemaal toegewijd aan het verbeteren van de manier waarop u LuckyTemplates en het Power Platform gebruikt.

Laat een reactie achter

Wat is zelf in Python: voorbeelden uit de echte wereld

Een RDS-bestand opslaan en laden in R

Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.

First N Business Days Revisited – Een DAX-coderingstaaloplossing

In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.

Inleiding tot het filteren van context in LuckyTemplates

In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.

Zakelijke rapportage met behulp van LuckyTemplates

Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.

Wat is LuckyTemplates Gateway? Alles wat u moet weten