Анализ текста с использованием Python: как определить части речи

Анализ текста с использованием Python: как определить части речи

В этом блоге мы покажем вам, как выполнять анализ текста с помощью Python для определения частей речи в текстовых данных в LuckyTemplates. Мы рассмотрим шаги по использованию Python для анализа текста и предоставим примеры и советы, которые помогут вам начать работу с вашими собственными проектами по анализу текста. Вы можете посмотреть полное видео этого урока в нижней части этого блога.

Оглавление

Источник данных

В этом уроке мы будем использовать стандартное облако слов, содержащее тексты, которые мы будем оценивать. Это показано в левой части изображения ниже. С правой стороны у нас есть фильтры для определения различных частей речи, например, прилагательных или глаголов. 

Анализ текста с использованием Python: как определить части речи

Мы можем отфильтровать слова, которые являются наречиями, существительными, различными типами существительных или глаголов и основами глаголов. Это очень полезно при создании маркетинговой кампании и поиске слов в отзывах клиентов. 

Давайте начнем с открытия нашего редактора Power Query

В наших исходных данных у нас есть столбцы для идентификаторов, возраста, названия и текста отзыва. Мы сосредоточимся на столбце Review Text и проанализируем его для анализа текста. Есть и другие категории, которые могут оказаться полезными в нашем анализе.

Анализ текста с использованием Python: как определить части речи

Анализ текста с использованием Python

Давайте начнем с обычных данных, которые мы ввели. Первое, что мы сделаем, это отфильтруем строки, потому что у нас много данных, а когда мы проводим текстовый анализ, это требует времени. 

Чтобы отфильтровать наши данные, возьмите первые 50 строк, чтобы немного ускорить анализ текста. 

Анализ текста с использованием Python: как определить части речи

После фильтрации перейдите в раздел «Преобразовать и запустить скрипт Python» . Мы будем кодировать все здесь, потому что кода не так много. 

Анализ текста с использованием Python: как определить части речи

Импорт пакетов

Давайте добавим два пакета для нашего текстового анализа Python с помощью нашего редактора сценариев Python . Мы будем «импортировать pandas как pd» , наша библиотека обработки данных будет сохранена как переменная pd. А затем « из текстового блоба » мы « импортируем TextBlob» с заглавной буквы между словами. 

Мы всегда можем задокументировать то, что делаем, поместив строку документа. Давайте напишем #bring необходимые библиотеки поверх наших пакетов.

Анализ текста с использованием Python: как определить части речи

Переименование переменной

В первой строке нашего скрипта есть строка, предоставленная LuckyTemplates, в которой говорится, что # «набор данных» содержит входные данные для этого скрипта. Эта строка говорит о том, что наши данные называются набором данных. 

Итак, давайте изменим это, потому что написание «набора данных» занимает слишком много времени. Введите #change переменную набора данных и df = набор данных в следующей строке.

Анализ текста с использованием Python: как определить части речи

Теперь короче написать нашу переменную. 

Анализ текста

Приступим к анализу текста. Напомним, что наши тексты обзоров находятся в столбце с отдельными ячейками. Эта настройка не очень полезна для нас, потому что мы хотим, чтобы все тексты были вместе, чтобы мы могли выполнить их анализ. 

Однако мы не хотим, чтобы они соединялись без пробела, поэтому давайте начнем наш код с пробела внутри двойных кавычек .  

Затем давайте добавим .join и изолируем наш текстовый столбец обзора, используя нашу переменную df , которая содержит набор данных. Введите «Текст обзора» , помещенный в скобки, которые изолируют столбец. 

Этот код соединит все, но нам нужно его сохранить, поэтому давайте создадим переменную с именем words.

Анализ текста с использованием Python: как определить части речи

Как только мы соберем все слова вместе, мы можем использовать наш текстовый объект, чтобы начать анализ слов. 

Первое, что нужно сделать, это создать наши части речи, используя переменную blob , которая нам нужна для передачи слов в текстовый блок. Мы собираемся использовать этот текстовый объект и передать текст, который представляет собой наши слова . Вводится как blob = TextBlob(words).

Теперь, когда у нас есть этот большой двоичный объект, мы возьмем его и создадим переменную part_of_speech , используя blob.tags . Теги будут сокращениями для каждой из частей речи. 

Далее мы собираемся сохранить это как фрейм данных, используя Pandas , который мы ввели. Давайте назовем его нашими данными , которые равны pd.DataFrame , и мы вносим наши part_of_speech

Анализ текста с использованием Python: как определить части речи

Давайте нажмем OK , чтобы запустить наш код. После запуска нашего кода мы должны получить таблицу наших переменных. У нас есть набор данных или наши исходные данные. У нас также есть наши данные и df

Анализ текста с использованием Python: как определить части речи

Если вы не получили ожидаемых результатов, мы покажем вам различные способы избежать некоторых ошибок, которые вы можете получить в коде.

Исправление кода для анализа текста в Python

Иногда нам может понадобиться очень явно изменить формат текста, который нас интересует. 

Мы можем сделать это, вызвав нашу переменную df , изолировав «Review Text », помещенный в скобки, а затем изменив тип на строки, используя .astype('str') . Затем просто пересохраните это в переменную df

Анализ текста с использованием Python: как определить части речи

Нажмите OK , чтобы перезапустить код. Мы должны получить те же результаты, что и ранее.

Теперь мы хотим открыть наши данные , последнюю переменную, которую мы ввели, чтобы посмотреть, как она выглядит. 

Анализ текста с использованием Python: как определить части речи

Все наши слова должны быть разбиты на части речи. Мы еще не назвали наши столбцы, но мы можем легко это сделать. 

Анализ текста с использованием Python: как определить части речи

В старой версии того же анализа текста я называл первый столбец Word , а второй — Abbreviation

Анализ текста с использованием Python: как определить части речи

В запросе «Части речи» мы вводим фактические слова, обозначающие эти сокращения, и соединяем их все вместе.

Анализ текста с использованием Python: как определить части речи

Теперь давайте закроем и примем

Анализ текста с использованием Python: как определить части речи

Шаги, которые мы сделали, позволили нам отфильтровать различные части речи, которые мы идентифицировали с помощью простого кода Python . Это дает нам этот визуальный элемент в LuckyTemplates, где мы можем легко фильтровать наш текст в зависимости от того, к какой категории частей речи он относится. 

Анализ текста с использованием Python: как определить части речи


Анализ текста в Python | Введение в
пользовательские функции Python | Обзор
списка Python и цикла for в LuckyTemplates

Заключение

Как аналитик данных , вы можете столкнуться с необходимостью извлечения информации и смысла из больших объемов неструктурированных текстовых данных. То, что вы узнали, является полезным подходом к пониманию текстовых данных с помощью анализа текста.

Теперь вы можете легко разбивать текст на более мелкие единицы, такие как слова и предложения, а затем анализировать эти единицы на наличие шаблонов и взаимосвязей. Вы можете достичь всех этих целей, используя анализ текста в Python и LuckyTemplates. 

Всего наилучшего,


Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Как сохранить и загрузить файл RDS в R

Как сохранить и загрузить файл RDS в R

Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.

Введение в фильтрацию контекста в LuckyTemplates

Введение в фильтрацию контекста в LuckyTemplates

В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.

Идеи материализации кэшей данных в DAX Studio

Идеи материализации кэшей данных в DAX Studio

В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.

Бизнес-отчетность с использованием LuckyTemplates

Бизнес-отчетность с использованием LuckyTemplates

Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать