Wat is zelf in Python: voorbeelden uit de echte wereld
Wat is zelf in Python: voorbeelden uit de echte wereld
In deze blog gaan we het hebben over tekstanalyse in Python voor het maken van geconstrueerde gegevens uit tekstinhoud. Dit zal u helpen bij het analyseren van grote hoeveelheden gegevens en minder tijd besteden aan het werken aan bepaalde taken. Je zult ook kennis opdoen over textblob die te maken hebben met natuurlijke taalverwerkingstaken.
Tekstanalyse is het proces waarbij teksten worden geanalyseerd met behulp van codes voor geautomatiseerde processen voor het produceren en groeperen van tekstgegevens.
Voordat we verder gaan, moet u mogelijk de bibliotheek installeren die we in deze zelfstudie zullen gebruiken.
Inhoudsopgave
Tekstanalyse implementeren in Python
Laten we beginnen met het importeren van textblob . Vergeet niet om te documenteren wat u doet met behulp van opmerkingen.
Door de bovenstaande code uit te voeren, hebben we nu toegang tot de textblob- bibliotheek. De volgende stap die we gaan doen, is een zin maken die we voor onze voorbeelden gaan gebruiken. We gaan dit doen door een zin op te slaan in een variabele met de naam zin .
Vergeet niet om de zin die u wilt toevoegen tussen dubbele aanhalingstekens te plaatsen.
De tekstblob is een geweldige bibliotheek waar we een blob kunnen maken en enkele van zijn functies kunnen gebruiken voor onze tekstanalyse in Python .
Bij het maken van de blob beginnen we met het maken van een variabele en deze een naam te geven blob . In deze variabele moeten we TextBlob toevoegen , de bibliotheek die we gebruiken.
Tussen haakjes gebruiken we de variabele zin die de zin bevat die we eerder hebben gemaakt. Houd er rekening mee dat u ervoor kunt kiezen om de zin zelf tussen haakjes voor dit deel handmatig te typen.
Om te controleren wat deze blobvariabele doet, kunt u deze eenvoudig initialiseren door de naam van de variabele te typen en op de toetsen Shift + Enter te drukken. De uitvoer moet vergelijkbaar zijn met het onderstaande voorbeeld.
Zoals u aan het resultaat kunt zien, is de zin die we in de zinvariabele hebben opgeslagen nu opgenomen in TextBlob .
Tokeniseren van tekstgegevens in Python
Als u enkele woorden in een zin wilt verwijderen, kunnen we elk van deze woorden opsplitsen in afzonderlijke delen in een lijst. Met deze gegeven zin gaan we ze tokeniseren of elk woord scheiden en in een lijst plaatsen.
Om dit te doen, gaan we de blob- variabele gebruiken en de tokenize- functie gebruiken. Vervolgens slaan we het op in een variabele met de naam woorden .
Laten we de woordenvariabele op dezelfde manier initialiseren als bij het initialiseren van de blobvariabele om te zien wat er in de getokeniseerde lijst staat.
Zoals u kunt zien, zijn elk van de woorden en zelfs de leestekens nu gescheiden in een lijst. Dit is hoe de tokenize- functie werkt.
Nu we een lijst met woorden hebben, kunnen we er een andere functie van uitvoeren. Laten we nog een lijst maken met woorden die we niet in onze lijst willen opnemen, zoals interpunctie en lidwoorden. Raadpleeg de onderstaande schermafbeelding om deze stap uit te voeren.
Bij het maken van de lijst met stopwoorden hebben we haakjes gebruikt om de lijst met stopwoorden te omsluiten. Vervolgens wordt elk van de stopwoorden tussen enkele aanhalingstekens geplaatst en elk wordt gescheiden door een komma. We hebben de lijst opgeslagen in de variabele stop_words .
Vanaf hier gaan we een lijstbegrip uitvoeren om woorden te verwijderen die nodig zijn voor het uitvoeren van tekstanalyse in Python . Dit omvat het opschonen van zinnen, het tokeniseren en het vergelijken van verschillende lijsten. We gaan deze twee lijsten nu vergelijken en een nieuwe lijst met clean_tokens maken .
In de hierboven gepresenteerde code hebben we een tijdelijke aanduiding gebruikt die w is om een element weer te geven . Wat we in dit deel proberen te doen, is het element in de variabele woorden te krijgen als het element niet bestaat in de variabele stop_words . Als we clean_tokens gaan initialiseren , is dit het resultaat.
In dit proces kunnen we onze tokens opschonen door een proces in te voeren waarbij onnodige tokens zoals interpunctie en lidwoorden worden verwijderd. Daarom hebben we alleen nog de essentiewoorden op onze lijst staan.
Tokens samenvoegen om een zin te vormen in Python
Nu we de schone tokens hebben gescheiden , laten we proberen ze allemaal in één zin te plaatsen. Om dat te doen, moeten we de .join- functie gebruiken. Controleer het onderstaande voorbeeld ter referentie.
In het bovenstaande voorbeeld hebben we een variabele met de naam clean_sentence gemaakt om onze schone tokens op te slaan die in een zin worden gecombineerd. Je kunt ook zien dat we een spatie hebben toegevoegd tussen dubbele aanhalingstekens en de .join- functie. Binnen de parameters hebben we de variabele clean_tokens opgenomen .
Dit is de uitvoer als we de variabele clean_sentence initialiseren .
Opvallend is dat de zin er niet goed uitziet omdat we de lidwoorden en interpunctie eerder hebben verwijderd.
Laten we, nadat we de clean_sentence hebben gemaakt , proberen een nieuwe tekstblob te maken met de clean_sentence die we zojuist hebben gemaakt. Vervolgens slaan we het op in een nieuwe variabele clean_blob .
Een tekstblob ontleden voor delen van spraak met behulp van de .tags-functie
Van deze analyse-blob kunnen we de stukjes van deze blob gebruiken om te controleren op woordsoorten of om nog meer wijzigingen aan te brengen. Laten we proberen de woordsoorten van elk woord in onze nieuwe tekstblob te controleren .
Om de woordsoorten in een tekstblob te controleren, moet u de .tags- functie gebruiken. Ik deed dit door onze clean_blob- variabele te gebruiken en daarna voegde ik de .tags- functie toe.
Als je ooit een foutmelding krijgt bij het initialiseren van de .tags- functie, lees en volg dan de stappen om de fout op te lossen. In dit geval ziet het er zo uit.
Als u aan het einde van deze foutmelding naar beneden scrolt, ziet u de vereiste gegevens die u nodig heeft voor de functie die u probeert te gebruiken.
Zodra we de code hebben gevonden die we moeten initialiseren om de benodigde gegevens te downloaden, kopieert u gewoon de code en opent u Anaconda Prompt met behulp van Windows Search .
Met behulp van Anaconda Prompt proberen we de fout op te lossen die we hebben ontvangen bij het initialiseren van de .tags- functie. We plakken nu de code die we eerder uit de foutmelding hebben gekopieerd en voeren deze uit door op Enter te drukken .
Zodra het klaar is, probeert u de .tags- functie opnieuw uit te voeren en te kijken of het werkt.
Als we de code opnieuw uitvoeren, kunnen we zien dat de fout is verholpen en dat we een resultaat hebben ontvangen dat elk woord uit de nieuwe tekstblob bevat, samen met de tags of woordsoorten.
Als u geen idee heeft wat deze tags betekenen, kunt u eenvoudig naar de textblob-website gaan om te controleren wat deze tags vertegenwoordigen.
De ngrams-functie gebruiken voor tekstanalyse in Python
Laten we naar een ander voorbeeld gaan, dat gaat over het verkrijgen van de ngrams . De functie ngrams wordt gebruikt om te zoeken naar woorden die vaak samen in een zin of document voorkomen. Laten we als voorbeeld beginnen met het maken van een nieuwe tekstblob en deze opslaan in de blob3- variabele.
Laten we daarna de ngrams- functie in de blob3- variabele gebruiken om enkele combinaties van woorden te controleren.
Als u geen waarde in de parameters opgeeft, worden standaard trigrammen of combinaties van drie woorden weergegeven. Maar als we 2-woordcombinaties uit de zin willen zien, kunnen we 2 instellen in de parameters zoals in het onderstaande voorbeeld.
Laten we het deze keer met een langere zin proberen. In dit voorbeeld heb ik zojuist een langere tekst uit een filmrecensie gekopieerd. Je kunt elke zin gebruiken die je wilt voor dit onderdeel.
Laten we als laatste voorbeeld proberen ngrams nog een keer te gebruiken met een meer informatieve zin.
Met al deze voorbeelden kunnen we meer tekstanalyse uitvoeren in Python op basis van de resultaten die we krijgen met de functie ngrams .
Python II voor LuckyTemplates-gebruikers – Nieuwe cursus in het on-demandplatform
Voorbeelddatasets laden in Python
Python gebruiken in LuckyTemplates | Dataset en tekenreeksfunctie
Conclusie
Kortom, je hebt geleerd over de verschillende functies die je kunt gebruiken voor het uitvoeren van tekstanalyse in Python.
Dit zijn de .tokenize-functie voor het scheiden van woorden in een zin, de .join-functie voor het combineren van tokenized woorden, de .tags-functie voor het controleren van de woordsoorten en de ngrams-functie voor het bekijken van de combinatie van woorden.
Bovendien heb je geleerd hoe je fouten kunt oplossen, zoals wat we deden in de .tags- functie met behulp van Anaconda Prompt . Je hebt ook geleerd hoe je een tekstblob importeert, maakt en deze bibliotheek gebruikt voor het uitvoeren van tekstanalyse in Python .
Al het beste,
Gaellim
Wat is zelf in Python: voorbeelden uit de echte wereld
Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.
In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.
Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.
In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.
Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.
Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.
Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.
Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.
Wat is LuckyTemplates Gateway? Alles wat u moet weten