Lematyzacja w Pythonie | Przewodnik dla początkujących

W tym samouczku omówimy lematyzację w Pythonie , która jest metodą używaną do grupowania różnych elementów słowa. Lematyzacja ma również na celu zmniejszenie fleksji słów i skupia się na zapewnieniu rdzenia lub podstawowej formy słowa, co oznacza słowo lemat .

Spis treści

Lematyzacja kontra stemming
Rzeczy, które należy wziąć pod uwagę przy stosowaniu lematyzacji
Etap przygotowania do lematyzacji w Pythonie
Implementacja lematyzacji w Pythonie
Wniosek

Lematyzacja kontra stemming

Lematyzacja jest podobna do stemmingu, który działa również w celu zmniejszenia fleksji w słowach. Jedyna różnica polega na tym, że w wyniku lematyzacji używane są słowa ze słownika.

Z drugiej strony, stemming usuwa tylko afiksy z odmienionego słowa, co może skutkować słowami, które nie istnieją.

Na przykład, jeśli użyjemy wynikania ze studiów słownych , da to słowo studi jako wynik, ponieważ ma na celu usunięcie sufiksów ze studiów słownych .

Z drugiej strony, jeśli zastosuje się lematyzację , w wyniku zostanie podane badanie słów, ponieważ koncentruje się ono na zapewnieniu podstawowej formy słowa.

Rzeczy, które należy wziąć pod uwagę przy stosowaniu lematyzacji

Używa słów opartych na słowniku. W przypadku terminu lemat , który oznacza rdzeń lub formę podstawową słowa, lematyzacja ma na celu zapewnienie podstawowej formy słowa, a nie tylko usuwanie odmiany słowa.
Znalezienie podstawowego słowa całkowicie zależy od części mowy. Bez określenia części mowy) lematyzacja może nie działać dobrze i możesz nie uzyskać oczekiwanego wyniku.
Jest wolniejszy niż łodygi, ale ma większą moc. Ponieważ lematyzacja nie jest zgodna z algorytmem działania na słowach i koniecznością dostarczania części mowy, jest uważana za wolniejszą niż wynikanie. Jest jednak potężniejszy w taki sposób, że używa słów opartych na słowniku do wyników.
Ma większą dokładność w poszukiwaniu słowa głównego. Ponieważ lematyzacja wykorzystuje słowa oparte na słownikach do układania wyników z odmienionego słowa, będziesz mieć większe szanse na uzyskanie dokładnych wyników.

Etap przygotowania do lematyzacji w Pythonie

Zanim przystąpimy do implementacji lematyzacji, zacznijmy od zaimportowania biblioteki Worda z obiektu textblob .

Lematyzacja w Pythonie | Przewodnik dla początkujących

Następnie utworzymy obiekt Word.

Lematyzacja w Pythonie | Przewodnik dla początkujących

Aby utworzyć obiekt Word, utworzyliśmy zmienną o nazwie w . Następnie zapisaliśmy bibliotekę Word, która zawiera nasz obiekt słowny, którym jest octopi , liczba mnoga słowa octopus. Zwróć uwagę, że podczas przekazywania elementu za pomocą biblioteki Word ważne jest, aby ująć ten element w pojedyncze cudzysłowy.

Zainicjujmy zmienną w, aby zobaczyć, czy zawiera ona właśnie utworzony obiekt Word.

Lematyzacja w Pythonie | Przewodnik dla początkujących

Po wykonaniu zmiennej w otrzymujemy w rezultacie słowo obiekt octopi .

Implementacja lematyzacji w Pythonie

Następnie zaimplementujemy lematyzację za pomocą funkcji .lemmatize .

Lematyzacja w Pythonie | Przewodnik dla początkujących

W tym kroku użyliśmy zmiennej w , która przechowuje słowo obiekt octopi i wykorzystaliśmy funkcję .lemmatize , aby zastosować lematyzację. W rezultacie otrzymaliśmy słowo ośmiornica , które jest rdzeniem lub podstawową formą słowa ośmiornica .

Następnie spróbujmy zastosować lematyzację ze słowem lepiej .

Lematyzacja w Pythonie | Przewodnik dla początkujących

W poprzednim przykładzie zaktualizowaliśmy nasz obiekt Word z octopi na lepszy . Następnie dokonaliśmy lematyzacji za pomocą funkcji .lemmatize . Tak więc wynik, który otrzymaliśmy, jest taki sam, jak obiekt słowny, którego użyliśmy.

Korzystając z funkcji .lemmatize, możesz zmienić sposób jej lematyzacji, przekazując część mowy. Jako przykład spróbujmy przekazać a do funkcji .lemmatize, która oznacza przymiotnik w częściach mowy.

Lematyzacja w Pythonie | Przewodnik dla początkujących

Po dodaniu części mowy do funkcji .lemmatize jesteśmy w stanie w rezultacie uzyskać dobre słowo bazowe.

Zmieńmy ponownie nasz obiekt word na działający . Zmieńmy też część mowy, którą będziemy przekazywać funkcji .lemmatize, na v , które oznacza czasownik.

Lematyzacja w Pythonie | Przewodnik dla początkujących

Po dokonaniu zmian i zainicjowaniu funkcji .lemmatize otrzymaliśmy słowo źródłowe uruchamianego słowa, które jest uruchamiane w wyniku. Większość lematyzatorów nie jest w stanie wykonać metod, które właśnie zastosowaliśmy przy użyciu funkcji .lemmatize.

Jednak funkcja .lemmatize jest znaczącym narzędziem do wykorzystania podczas wykonywania pewnych rodzajów analizy tekstu w Pythonie w celu uzyskania podstawowej formy słowa.

Jak używać skryptu Pythona w usłudze LuckyTemplates
Jak ładować przykładowe zestawy danych w języku Python
Funkcje zdefiniowane przez użytkownika w języku Python | Przegląd

Wniosek

Krótko mówiąc, jesteśmy w stanie zrozumieć użycie lematyzacji w Pythonie i jej działanie. Omówiliśmy również podobieństwa i różnice między lematyzacją a wynikaniem . Jesteśmy również w stanie stworzyć obiekt Word za pomocą biblioteki Word i jak korzystać z funkcji .lemmatize .

Ponadto nauczyliśmy się stosować różne części mowy w funkcji .lemmatize. Wdrożenie lematyzacji w codziennych zadaniach związanych z analizą tekstu znacznie pomoże zmniejszyć czas i wysiłek związany z wyszukiwaniem podstawowego słowa określonego słowa.

Wszystkiego najlepszego,

gaelim

Zostaw komentarz

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.