Python-dataset: herhaalbare codes toepassen

Python-dataset: herhaalbare codes toepassen

In deze blog leer je hoe je herhaalbare codes of functies kunt toepassen op Python-datasets om hetzelfde type uitvoer te produceren. Dit zal u helpen efficiënter te zijn en minder moeite te doen om bepaalde gegevens uit verschillende datasets op te halen. In deze zelfstudie gaan we een bestaande code gebruiken die ik eerder als voorbeeld heb gemaakt.

U leert ook hoe u kopieën van datasets maakt om beschadiging van de originele versie van de dataset te voorkomen, hoe u bibliotheken en functies importeert met behulp van herhaalbare codes en hoe u een visualisatie maakt in LuckyTemplates .

Voor deze blog raad ik je aan om altijd het CSV- bestand op te halen en over te brengen naar LuckyTemplates. Ik zal ook laten zien hoe we dit CSV-bestand kunnen overbrengen en rechtstreeks in LuckyTemplates kunnen plaatsen, voor het geval dat het moet.

Inhoudsopgave

Een CSV-bestand ophalen in LuckyTemplates

Om een ​​CSV-bestand naar LuckyTemplates te brengen, klikt u eerst op het menu " Gegevens ophalen " in het Home -lint.

Python-dataset: herhaalbare codes toepassen

Nadat u erop hebt geklikt, verschijnt er een vervolgkeuzemenu en moet u de optie " Tekst/CSV " in het menu selecteren.

Python-dataset: herhaalbare codes toepassen

Zodra u de optie " Tekst / CSV " selecteert, wordt er een venster geopend waarin we het bestand kunnen selecteren dat we in LuckyTemplates willen brengen. Laten we voor dit voorbeeld het IMDB Dataset- bestand gebruiken. 

Python-dataset: herhaalbare codes toepassen

Bij het openen van het IMDB Dataset.csv- bestand, ziet u een ander venster met de gegevens in dat bestand. Aangezien dit bestand een grote hoeveelheid gegevens bevat, worden slechts enkele voorbeelden van de gegevens weergegeven.

Het eerste dat we in dit bestand gaan doen, is het transformeren. Om dat te doen, klikt u gewoon op de optie " Gegevens transformeren " rechtsonder in het venster.

Python-dataset: herhaalbare codes toepassen

Een kopie maken van de Python-gegevensset

Voordat we wijzigingen aanbrengen in deze dataset, is het belangrijk om een ​​kopie te maken van de originele dataset. Klik hiervoor met de rechtermuisknop op de dataset. 

Python-dataset: herhaalbare codes toepassen

Selecteer vervolgens in het menu " Kopiëren ".

Python-dataset: herhaalbare codes toepassen

Klik ten slotte met de rechtermuisknop op het deelvenster Query's en selecteer vervolgens " Plakken " uit de opties.

Python-dataset: herhaalbare codes toepassen

Nadat u deze stappen hebt toegepast, zou u een kopie van de originele IMDB-gegevensset in het deelvenster Query's moeten hebben .

Python-dataset: herhaalbare codes toepassen

Een gegevensset transformeren door een Python-script uit te voeren

Door een CSV-bestand te transformeren, kunt u grote hoeveelheden Python-datasets opsplitsen in kleinere. We kunnen dat doen door een Python-script in dit bestand toe te passen.

Maar eerst moeten we ervoor zorgen dat de headers goed zijn uitgelijnd. Klik op het Home- menu en zoek vervolgens naar de optie " Gebruik eerste rij als kopteksten " en klik erop.

Python-dataset: herhaalbare codes toepassen

Nadat u op de optie " Eerste rij als kopteksten gebruiken " hebt geklikt, zijn de kopteksten nu gewijzigd in de gegevens van de vorige eerste rijen, namelijk " review " en " sentiment ".

Python-dataset: herhaalbare codes toepassen

Ga vervolgens naar het menu Transformeren en klik op de optie " Python-script uitvoeren " in de optiegroep " Scripts ".

Python-dataset: herhaalbare codes toepassen

Daarna verschijnt een venster " Run Python Script ". In dit venster kun je elk gewenst Python-script uitvoeren om het huidige bestand dat je gebruikt te transformeren. Voor dit voorbeeld ga ik de dataset kleiner maken door de volgende code uit te voeren.

Python-dataset: herhaalbare codes toepassen

Ik heb de .iloc- functie op de dataset gebruikt om de specifieke rijen en kolommen uit de IMDB-dataset te selecteren. Vervolgens heb ik in de parameters alle eerste 500 rijen en alle kolommen in de IMDB-gegevensset geselecteerd. Ik heb het opgeslagen in een variabele met de naam " dataset ".

Na het uitvoeren van het script zouden we de "dataset" moeten zien, de variabele die we in de vorige stap hebben gemaakt. Het bevat de gegevens die we hebben gewijzigd met behulp van het Python-script.

Python-dataset: herhaalbare codes toepassen

De gegevensset controleren

Om de datasettabel te openen, klikt u gewoon op " Tabel " onder de kolom Waarde .

Python-dataset: herhaalbare codes toepassen

We kunnen zien dat deze dataset nu nog maar 500 rijen bevat .

Python-dataset: herhaalbare codes toepassen

Nu we onze Python- dataset hebben opgesplitst in 500 rijen, is het volgende dat we gaan doen de bibliotheken importeren die we nodig hebben. We doen dat met dezelfde procedure als bij het wijzigen van de inhoud van IMDB Dataset. Dit is om ervoor te zorgen dat onze code in bepaalde scenario's met minder wijzigingen kan worden beheerd.

Bibliotheken en functies importeren met herhaalbare codes

Om de bibliotheken te importeren, gaan we terug naar ons notitieblok en kopiëren we de bibliotheken die we nodig hebben. Houd er rekening mee dat ik voorafgaand aan deze zelfstudie al deze bibliotheken heb gemaakt die we gaan kopiëren. Ik hergebruik deze gewoon voor u om duidelijk het idee te krijgen over het gebruik van functies als herhaalbare codes.

Python-dataset: herhaalbare codes toepassen

Zodra de bibliotheken zijn gekopieerd, plakt u ze in het venster " Run Python Script " en vergeet niet de regel " from collections import Counter " aan het einde van het script op te nemen. 

Python-dataset: herhaalbare codes toepassen

Vervolgens kopiëren we de functie voor het opschonen van gegevens uit onze notebook en voegen deze toe aan het Python- script in LuckyTemplates.

Python-dataset: herhaalbare codes toepassen

We voegen het toe onder de bibliotheken. 

Python-dataset: herhaalbare codes toepassen

We kopiëren ook de code voor het aanroepen van de functie die we zojuist hebben toegevoegd.

Python-dataset: herhaalbare codes toepassen

Plak het vervolgens in het Python-script in LuckyTemplates.

Python-dataset: herhaalbare codes toepassen

Gegevenstabellen genereren

Nu we de code hebben toegevoegd voor het aanroepen van de functie voor het opschonen van gegevens , moeten we " df2 " wijzigen in " dataset " en de " title " in " review ". We hebben dit gedaan vanwege de wijzigingen die we in de dataset hebben aangebracht.

We hebben "df2" gewijzigd in " dataset " omdat we de gegevens met 500 rijen in "dataset" hebben opgeslagen. Vervolgens hebben we voor "titel" het bijgewerkt naar "review" als gevolg van het wijzigen van de koppen van de kolommen.

Met deze codes toegevoegd, zouden we in staat moeten zijn om 3 tabellen te krijgen of te genereren, namelijk data1 voor woordfrequentie, data2 voor bigramfrequentie en data3 voor trigramfrequentie.

Python-dataset: herhaalbare codes toepassen

U kunt ook nog een kopie maken van deze gewijzigde IMDB-gegevensset (2) om later een andere tabel te openen.

Python-dataset: herhaalbare codes toepassen

Laten we nu in IMDB Dataset (2) de tabel data1 openen . 

Python-dataset: herhaalbare codes toepassen

 Zodra de data1-tabel is geopend, kunnen we zowel de lijst met woorden als de frequentie zien.

Python-dataset: herhaalbare codes toepassen

Zoals je kunt zien, kunnen we bepaalde procedures uit de hoofddataset uitvoeren met behulp van herhaalbare codes die we uit de Jupyter Notebook hebben gehaald. Met die herhaalbare codes kunnen we een Python-dataset transformeren en een tabel genereren voor woordfrequentie, bigramfrequentie en trigramfrequentie zonder de codes helemaal opnieuw te typen.

Laten we in IMDB Dataset (3) de data2-tabel openen om de bigram-frequentie te zien.

Python-dataset: herhaalbare codes toepassen

In de Bigram-frequentietabel kunt u de " br " in de lijst zien. Dit is waarschijnlijk gekoppeld aan een HTML-code. We kunnen gewoon teruggaan en iets anders toevoegen, maar dat gaan we in deze tutorial niet doen.

Nu de data is ingeladen met behulp van de herhaalbare codes, kunnen we er visualisaties over gaan maken in LuckyTemplates. Bijvoorbeeld een staafdiagram voor de frequentie van elk woord. 

Python-dataset: herhaalbare codes toepassen


Python door de gebruiker gedefinieerde functies | Een overzicht van
Python-lijst en for-loops in LuckyTemplates
Python gebruiken in LuckyTemplates | Dataset en tekenreeksfunctie

Conclusie

Kortom, herhaalbare codes kunnen u helpen bepaalde procedures op een dataset met minder moeite uit te voeren. U hebt geleerd hoe u herhaalbare codes kunt gebruiken om een ​​Python-dataset in LuckyTemplates te transformeren. U was ook in staat om de .iloc- functie te gebruiken om de rijen en kolommen op te geven die moeten worden geselecteerd bij het wijzigen van een dataset.

Daarnaast heb je kopieën van datasets gemaakt en een visualisatie gemaakt met behulp van een staafdiagram. Deze visualisatie is gebaseerd op de Python-datasets die we hebben gemaakt en gewijzigd met behulp van herhaalbare codes.

Al het beste,

Gaellim


Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Een RDS-bestand opslaan en laden in R

Een RDS-bestand opslaan en laden in R

Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.

First N Business Days Revisited – Een DAX-coderingstaaloplossing

First N Business Days Revisited – Een DAX-coderingstaaloplossing

In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.

Inleiding tot het filteren van context in LuckyTemplates

Inleiding tot het filteren van context in LuckyTemplates

In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.

Zakelijke rapportage met behulp van LuckyTemplates

Zakelijke rapportage met behulp van LuckyTemplates

Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten