Tekstanalyse in Python | Een introductie

Tekstanalyse in Python | Een introductie

In deze blog gaan we het hebben over tekstanalyse in Python voor het maken van geconstrueerde gegevens uit tekstinhoud. Dit zal u helpen bij het analyseren van grote hoeveelheden gegevens en minder tijd besteden aan het werken aan bepaalde taken. Je zult ook kennis opdoen over textblob die te maken hebben met natuurlijke taalverwerkingstaken.

Tekstanalyse is het proces waarbij teksten worden geanalyseerd met behulp van codes voor geautomatiseerde processen voor het produceren en groeperen van tekstgegevens.

Voordat we verder gaan, moet u mogelijk de bibliotheek installeren die we in deze zelfstudie zullen gebruiken.

Inhoudsopgave

Tekstanalyse implementeren in Python

Laten we beginnen met het importeren van textblob . Vergeet niet om te documenteren wat u doet met behulp van opmerkingen.

Tekstanalyse in Python |  Een introductie

Door de bovenstaande code uit te voeren, hebben we nu toegang tot de textblob- bibliotheek. De volgende stap die we gaan doen, is een zin maken die we voor onze voorbeelden gaan gebruiken. We gaan dit doen door een zin op te slaan in een variabele met de naam zin .

Vergeet niet om de zin die u wilt toevoegen tussen dubbele aanhalingstekens te plaatsen.

Tekstanalyse in Python |  Een introductie

De tekstblob is een geweldige bibliotheek waar we een blob kunnen maken en enkele van zijn functies kunnen gebruiken voor onze tekstanalyse in Python .

Tekstanalyse in Python |  Een introductie

Bij het maken van de blob beginnen we met het maken van een variabele en deze een naam te geven blob . In deze variabele moeten we TextBlob toevoegen , de bibliotheek die we gebruiken.

Tussen haakjes gebruiken we de variabele zin die de zin bevat die we eerder hebben gemaakt. Houd er rekening mee dat u ervoor kunt kiezen om de zin zelf tussen haakjes voor dit deel handmatig te typen.

Om te controleren wat deze blobvariabele doet, kunt u deze eenvoudig initialiseren door de naam van de variabele te typen en op de toetsen Shift + Enter te drukken. De uitvoer moet vergelijkbaar zijn met het onderstaande voorbeeld.

Tekstanalyse in Python |  Een introductie

Zoals u aan het resultaat kunt zien, is de zin die we in de zinvariabele hebben opgeslagen nu opgenomen in TextBlob .

Tokeniseren van tekstgegevens in Python

Als u enkele woorden in een zin wilt verwijderen, kunnen we elk van deze woorden opsplitsen in afzonderlijke delen in een lijst. Met deze gegeven zin gaan we ze tokeniseren of elk woord scheiden en in een lijst plaatsen.

Om dit te doen, gaan we de blob- variabele gebruiken en de tokenize- functie gebruiken. Vervolgens slaan we het op in een variabele met de naam woorden .

Tekstanalyse in Python |  Een introductie

Laten we de woordenvariabele op dezelfde manier initialiseren als bij het initialiseren van de blobvariabele om te zien wat er in de getokeniseerde lijst staat.

Tekstanalyse in Python |  Een introductie

Zoals u kunt zien, zijn elk van de woorden en zelfs de leestekens nu gescheiden in een lijst. Dit is hoe de tokenize- functie werkt.

Nu we een lijst met woorden hebben, kunnen we er een andere functie van uitvoeren. Laten we nog een lijst maken met woorden die we niet in onze lijst willen opnemen, zoals interpunctie en lidwoorden. Raadpleeg de onderstaande schermafbeelding om deze stap uit te voeren.

Tekstanalyse in Python |  Een introductie

Bij het maken van de lijst met stopwoorden hebben we haakjes gebruikt om de lijst met stopwoorden te omsluiten. Vervolgens wordt elk van de stopwoorden tussen enkele aanhalingstekens geplaatst en elk wordt gescheiden door een komma. We hebben de lijst opgeslagen in de variabele stop_words .

Vanaf hier gaan we een lijstbegrip uitvoeren om woorden te verwijderen die nodig zijn voor het uitvoeren van tekstanalyse in Python . Dit omvat het opschonen van zinnen, het tokeniseren en het vergelijken van verschillende lijsten. We gaan deze twee lijsten nu vergelijken en een nieuwe lijst met clean_tokens maken .

Tekstanalyse in Python |  Een introductie

In de hierboven gepresenteerde code hebben we een tijdelijke aanduiding gebruikt die w is om een ​​element weer te geven . Wat we in dit deel proberen te doen, is het element in de variabele woorden te krijgen als het element niet bestaat in de variabele stop_words . Als we clean_tokens gaan initialiseren , is dit het resultaat.

Tekstanalyse in Python |  Een introductie

In dit proces kunnen we onze tokens opschonen door een proces in te voeren waarbij onnodige tokens zoals interpunctie en lidwoorden worden verwijderd. Daarom hebben we alleen nog de essentiewoorden op onze lijst staan.

Tokens samenvoegen om een ​​zin te vormen in Python

Nu we de schone tokens hebben gescheiden , laten we proberen ze allemaal in één zin te plaatsen. Om dat te doen, moeten we de .join- functie gebruiken. Controleer het onderstaande voorbeeld ter referentie.

Tekstanalyse in Python |  Een introductie

In het bovenstaande voorbeeld hebben we een variabele met de naam clean_sentence gemaakt om onze schone tokens op te slaan die in een zin worden gecombineerd. Je kunt ook zien dat we een spatie hebben toegevoegd tussen dubbele aanhalingstekens en de .join- functie. Binnen de parameters hebben we de variabele clean_tokens opgenomen .

Dit is de uitvoer als we de variabele clean_sentence initialiseren .

Tekstanalyse in Python |  Een introductie

Opvallend is dat de zin er niet goed uitziet omdat we de lidwoorden en interpunctie eerder hebben verwijderd.

Laten we, nadat we de clean_sentence hebben gemaakt , proberen een nieuwe tekstblob te maken met de clean_sentence die we zojuist hebben gemaakt. Vervolgens slaan we het op in een nieuwe variabele clean_blob .

Tekstanalyse in Python |  Een introductie

Een tekstblob ontleden voor delen van spraak met behulp van de .tags-functie

Van deze analyse-blob kunnen we de stukjes van deze blob gebruiken om te controleren op woordsoorten of om nog meer wijzigingen aan te brengen. Laten we proberen de woordsoorten van elk woord in onze nieuwe tekstblob te controleren .

Tekstanalyse in Python |  Een introductie

Om de woordsoorten in een tekstblob te controleren, moet u de .tags- functie gebruiken. Ik deed dit door onze clean_blob- variabele te gebruiken en daarna voegde ik de .tags- functie toe.

Als je ooit een foutmelding krijgt bij het initialiseren van de .tags- functie, lees en volg dan de stappen om de fout op te lossen. In dit geval ziet het er zo uit.

Tekstanalyse in Python |  Een introductie

Als u aan het einde van deze foutmelding naar beneden scrolt, ziet u de vereiste gegevens die u nodig heeft voor de functie die u probeert te gebruiken.

Tekstanalyse in Python |  Een introductie

Zodra we de code hebben gevonden die we moeten initialiseren om de benodigde gegevens te downloaden, kopieert u gewoon de code en opent u Anaconda Prompt met behulp van Windows Search .

Tekstanalyse in Python |  Een introductie

Met behulp van Anaconda Prompt proberen we de fout op te lossen die we hebben ontvangen bij het initialiseren van de .tags- functie. We plakken nu de code die we eerder uit de foutmelding hebben gekopieerd en voeren deze uit door op Enter te drukken .

Tekstanalyse in Python |  Een introductie

Zodra het klaar is, probeert u de .tags- functie opnieuw uit te voeren en te kijken of het werkt.

Tekstanalyse in Python |  Een introductie

Als we de code opnieuw uitvoeren, kunnen we zien dat de fout is verholpen en dat we een resultaat hebben ontvangen dat elk woord uit de nieuwe tekstblob bevat, samen met de tags of woordsoorten.

Als u geen idee heeft wat deze tags betekenen, kunt u eenvoudig naar de textblob-website gaan om te controleren wat deze tags vertegenwoordigen. 

De ngrams-functie gebruiken voor tekstanalyse in Python

Laten we naar een ander voorbeeld gaan, dat gaat over het verkrijgen van de ngrams . De functie ngrams wordt gebruikt om te zoeken naar woorden die vaak samen in een zin of document voorkomen. Laten we als voorbeeld beginnen met het maken van een nieuwe tekstblob en deze opslaan in de blob3- variabele.

Tekstanalyse in Python |  Een introductie

Laten we daarna de ngrams- functie in de blob3- variabele gebruiken om enkele combinaties van woorden te controleren.

Tekstanalyse in Python |  Een introductie

Als u geen waarde in de parameters opgeeft, worden standaard trigrammen of combinaties van drie woorden weergegeven. Maar als we 2-woordcombinaties uit de zin willen zien, kunnen we 2 instellen in de parameters zoals in het onderstaande voorbeeld.

Tekstanalyse in Python |  Een introductie

Laten we het deze keer met een langere zin proberen. In dit voorbeeld heb ik zojuist een langere tekst uit een filmrecensie gekopieerd. Je kunt elke zin gebruiken die je wilt voor dit onderdeel.

Tekstanalyse in Python |  Een introductie

Laten we als laatste voorbeeld proberen ngrams nog een keer te gebruiken met een meer informatieve zin.

Tekstanalyse in Python |  Een introductie

Met al deze voorbeelden kunnen we meer tekstanalyse uitvoeren in Python op basis van de resultaten die we krijgen met de functie ngrams .


Python II voor LuckyTemplates-gebruikers – Nieuwe cursus in het on-demandplatform
Voorbeelddatasets laden in Python
Python gebruiken in LuckyTemplates | Dataset en tekenreeksfunctie

Conclusie

Kortom, je hebt geleerd over de verschillende functies die je kunt gebruiken voor het uitvoeren van tekstanalyse in Python.

Dit zijn de .tokenize-functie voor het scheiden van woorden in een zin, de .join-functie voor het combineren van tokenized woorden, de .tags-functie voor het controleren van de woordsoorten en de ngrams-functie voor het bekijken van de combinatie van woorden.

Bovendien heb je geleerd hoe je fouten kunt oplossen, zoals wat we deden in de .tags- functie met behulp van Anaconda Prompt . Je hebt ook geleerd hoe je een tekstblob importeert, maakt en deze bibliotheek gebruikt voor het uitvoeren van tekstanalyse in Python .

Al het beste,

Gaellim


Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Een RDS-bestand opslaan en laden in R

Een RDS-bestand opslaan en laden in R

Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.

First N Business Days Revisited – Een DAX-coderingstaaloplossing

First N Business Days Revisited – Een DAX-coderingstaaloplossing

In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.

Inleiding tot het filteren van context in LuckyTemplates

Inleiding tot het filteren van context in LuckyTemplates

In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.

Zakelijke rapportage met behulp van LuckyTemplates

Zakelijke rapportage met behulp van LuckyTemplates

Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten