Лемматизация в Python | Руководство для начинающих

В этом уроке мы собираемся обсудить лемматизацию в Python — метод, который используется для группировки различных элементов слова. Лемматизация также направлена ​​​​на уменьшение перегиба слов и фокусируется на предоставлении корня или базовой формы слова, что и означает слово « лемма» .

Оглавление

Лемматизация против стемминга

Лемматизация похожа на стемминг, который также служит для уменьшения перегибов в словах. Единственное отличие состоит в том, что в результате лемматизации используются слова из словаря.

С другой стороны, создание основы удаляет только аффиксы из флективного слова, что может привести к тому, что слова не существуют.

Например, если мы воспользуемся корневым словом « study» , то на выходе получим слово « studi» , так как оно направлено на удаление суффиксов «es» из слова « study» .

С другой стороны, если используется лемматизация , в результате будет дано изучение слова, поскольку оно фокусируется на обеспечении базовой формы слова.

Что следует учитывать при использовании лемматизации

  • Он использует слова из словаря. С термином лемма , который означает корень или базовую форму слова, лемматизация направлена ​​​​на предоставление базовой формы слова, а не просто удаление перегибов слова.
  • Поиск основы слова полностью зависит от частей речи. Без указания частей речи лемматизация может работать неэффективно, и вы можете не получить желаемого результата.
  • Это медленнее, чем стемминг, но более мощное. Поскольку лемматизация не следует алгоритму для работы со словами и необходимости предоставления частей речи, она считается более медленной, чем выделение корней. Однако он более эффективен в том смысле, что для результатов используются слова из словаря. 
  • Он имеет более высокую точность в поиске корневого слова. Поскольку лемматизация использует слова на основе словаря при выводе результатов из изменяемого слова, у вас будет больше шансов получить точные результаты.

Этап подготовки к лемматизации в Python

Прежде чем мы приступим к реализации лемматизации, начнем с импорта библиотеки Word из textblob .

Лемматизация в Python |  Руководство для начинающих

После этого мы собираемся создать объект слова. 

Лемматизация в Python |  Руководство для начинающих

Чтобы создать объект слова, мы создали переменную с именем w . Затем мы сохранили библиотеку Word, содержащую наш объект слова, которым является octopi , форма множественного числа от слова octopus. Обратите внимание, что при передаче элемента с помощью библиотеки Word важно заключить этот элемент в одинарные кавычки.

Давайте инициализируем переменную w , чтобы увидеть, содержит ли она объект слова, который мы только что создали.

Лемматизация в Python |  Руководство для начинающих

При выполнении переменной w мы получаем в результате объект-слово octopi .

Реализация лемматизации в Python

Далее мы реализуем лемматизацию с помощью функции .lemmatize

Лемматизация в Python |  Руководство для начинающих

На этом шаге мы использовали переменную w , которая содержит осьминог объекта слова , и мы использовали функцию .lemmatize для применения лемматизации. В результате мы получили слово octopus , которое является корневой или базовой формой слова octopi .

После этого попробуем применить лемматизацию со словом better .

Лемматизация в Python |  Руководство для начинающих

В предыдущем примере мы обновили наш объект слова с octopi на better . Затем мы лемматизировали его с помощью функции .lemmatize . Таким образом, результат, который мы получили, совпадает со словесным объектом, который мы использовали.

Используя функцию .lemmatize, вы можете изменить способ ее лемматизации, передав часть речи. В качестве примера попробуем передать a в функцию .lemmatize, которая обозначает прилагательное в частях речи. 

Лемматизация в Python |  Руководство для начинающих

После добавления части речи в функцию .lemmatize мы можем в результате получить хорошее базовое слово.

Давайте снова изменим наш словесный объект на running . Давайте также изменим часть речи, которую мы будем передавать функции .lemmatize, на v , обозначающую глагол.

Лемматизация в Python |  Руководство для начинающих

После внесения изменений и инициализации функции .lemmatize мы получили в результате корневое слово слова running которое выполняется . Большинство лемматизаторов не способны выполнять методы, которые мы только что сделали при использовании функции .lemmatize.

Тем не менее, функция .lemmatize — важный инструмент, который можно использовать при выполнении определенных типов анализа текста в Python для получения базовой формы слова.


Как использовать скрипт Python в LuckyTemplates
Как загрузить примеры наборов данных в Python
Пользовательские функции Python | Обзор

Заключение

Короче говоря, мы можем понять использование лемматизации в Python и то, как она работает. Мы также обсудили сходство и различие лемматизации и стемминга . Мы также можем создать объект слова, используя библиотеку Word и как использовать функцию .lemmatize .

Более того, мы научились применять разные части речи в функции .lemmatize. Внедрение лемматизации в ваши повседневные задачи анализа текста значительно поможет вам сократить время и усилия на поиск основного слова определенного слова.

Всего наилучшего,

Гаэллим

Leave a Comment

Расчет недельных продаж с помощью DAX в LuckyTemplates

Расчет недельных продаж с помощью DAX в LuckyTemplates

В этом руководстве показано, как в конечном итоге можно рассчитать разницу между еженедельными результатами продаж с помощью DAX в LuckyTemplates.

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Как сохранить и загрузить файл RDS в R

Как сохранить и загрузить файл RDS в R

Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.

Введение в фильтрацию контекста в LuckyTemplates

Введение в фильтрацию контекста в LuckyTemplates

В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.

Идеи материализации кэшей данных в DAX Studio

Идеи материализации кэшей данных в DAX Studio

В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.

Бизнес-отчетность с использованием LuckyTemplates

Бизнес-отчетность с использованием LuckyTemplates

Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.