Что такое self в Python: примеры из реального мира
Что такое self в Python: примеры из реального мира
В этом блоге мы покажем вам, как выполнять анализ текста с помощью Python для определения частей речи в текстовых данных в LuckyTemplates. Мы рассмотрим шаги по использованию Python для анализа текста и предоставим примеры и советы, которые помогут вам начать работу с вашими собственными проектами по анализу текста. Вы можете посмотреть полное видео этого урока в нижней части этого блога.
Оглавление
Источник данных
В этом уроке мы будем использовать стандартное облако слов, содержащее тексты, которые мы будем оценивать. Это показано в левой части изображения ниже. С правой стороны у нас есть фильтры для определения различных частей речи, например, прилагательных или глаголов.
Мы можем отфильтровать слова, которые являются наречиями, существительными, различными типами существительных или глаголов и основами глаголов. Это очень полезно при создании маркетинговой кампании и поиске слов в отзывах клиентов.
Давайте начнем с открытия нашего редактора Power Query .
В наших исходных данных у нас есть столбцы для идентификаторов, возраста, названия и текста отзыва. Мы сосредоточимся на столбце Review Text и проанализируем его для анализа текста. Есть и другие категории, которые могут оказаться полезными в нашем анализе.
Анализ текста с использованием Python
Давайте начнем с обычных данных, которые мы ввели. Первое, что мы сделаем, это отфильтруем строки, потому что у нас много данных, а когда мы проводим текстовый анализ, это требует времени.
Чтобы отфильтровать наши данные, возьмите первые 50 строк, чтобы немного ускорить анализ текста.
После фильтрации перейдите в раздел «Преобразовать и запустить скрипт Python» . Мы будем кодировать все здесь, потому что кода не так много.
Импорт пакетов
Давайте добавим два пакета для нашего текстового анализа Python с помощью нашего редактора сценариев Python . Мы будем «импортировать pandas как pd» , наша библиотека обработки данных будет сохранена как переменная pd. А затем « из текстового блоба » мы « импортируем TextBlob» с заглавной буквы между словами.
Мы всегда можем задокументировать то, что делаем, поместив строку документа. Давайте напишем #bring необходимые библиотеки поверх наших пакетов.
Переименование переменной
В первой строке нашего скрипта есть строка, предоставленная LuckyTemplates, в которой говорится, что # «набор данных» содержит входные данные для этого скрипта. Эта строка говорит о том, что наши данные называются набором данных.
Итак, давайте изменим это, потому что написание «набора данных» занимает слишком много времени. Введите #change переменную набора данных и df = набор данных в следующей строке.
Теперь короче написать нашу переменную.
Анализ текста
Приступим к анализу текста. Напомним, что наши тексты обзоров находятся в столбце с отдельными ячейками. Эта настройка не очень полезна для нас, потому что мы хотим, чтобы все тексты были вместе, чтобы мы могли выполнить их анализ.
Однако мы не хотим, чтобы они соединялись без пробела, поэтому давайте начнем наш код с пробела внутри двойных кавычек .
Затем давайте добавим .join и изолируем наш текстовый столбец обзора, используя нашу переменную df , которая содержит набор данных. Введите «Текст обзора» , помещенный в скобки, которые изолируют столбец.
Этот код соединит все, но нам нужно его сохранить, поэтому давайте создадим переменную с именем words.
Как только мы соберем все слова вместе, мы можем использовать наш текстовый объект, чтобы начать анализ слов.
Первое, что нужно сделать, это создать наши части речи, используя переменную blob , которая нам нужна для передачи слов в текстовый блок. Мы собираемся использовать этот текстовый объект и передать текст, который представляет собой наши слова . Вводится как blob = TextBlob(words).
Теперь, когда у нас есть этот большой двоичный объект, мы возьмем его и создадим переменную part_of_speech , используя blob.tags . Теги будут сокращениями для каждой из частей речи.
Далее мы собираемся сохранить это как фрейм данных, используя Pandas , который мы ввели. Давайте назовем его нашими данными , которые равны pd.DataFrame , и мы вносим наши part_of_speech .
Давайте нажмем OK , чтобы запустить наш код. После запуска нашего кода мы должны получить таблицу наших переменных. У нас есть набор данных или наши исходные данные. У нас также есть наши данные и df .
Если вы не получили ожидаемых результатов, мы покажем вам различные способы избежать некоторых ошибок, которые вы можете получить в коде.
Исправление кода для анализа текста в Python
Иногда нам может понадобиться очень явно изменить формат текста, который нас интересует.
Мы можем сделать это, вызвав нашу переменную df , изолировав «Review Text », помещенный в скобки, а затем изменив тип на строки, используя .astype('str') . Затем просто пересохраните это в переменную df .
Нажмите OK , чтобы перезапустить код. Мы должны получить те же результаты, что и ранее.
Теперь мы хотим открыть наши данные , последнюю переменную, которую мы ввели, чтобы посмотреть, как она выглядит.
Все наши слова должны быть разбиты на части речи. Мы еще не назвали наши столбцы, но мы можем легко это сделать.
В старой версии того же анализа текста я называл первый столбец Word , а второй — Abbreviation .
В запросе «Части речи» мы вводим фактические слова, обозначающие эти сокращения, и соединяем их все вместе.
Теперь давайте закроем и примем .
Шаги, которые мы сделали, позволили нам отфильтровать различные части речи, которые мы идентифицировали с помощью простого кода Python . Это дает нам этот визуальный элемент в LuckyTemplates, где мы можем легко фильтровать наш текст в зависимости от того, к какой категории частей речи он относится.
Анализ текста в Python | Введение в
пользовательские функции Python | Обзор
списка Python и цикла for в LuckyTemplates
Заключение
Как аналитик данных , вы можете столкнуться с необходимостью извлечения информации и смысла из больших объемов неструктурированных текстовых данных. То, что вы узнали, является полезным подходом к пониманию текстовых данных с помощью анализа текста.
Теперь вы можете легко разбивать текст на более мелкие единицы, такие как слова и предложения, а затем анализировать эти единицы на наличие шаблонов и взаимосвязей. Вы можете достичь всех этих целей, используя анализ текста в Python и LuckyTemplates.
Всего наилучшего,
Что такое self в Python: примеры из реального мира
Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.
В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.
В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.
В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.
Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.
Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.
В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.
Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.
Что такое шлюз LuckyTemplates? Все, что тебе нужно знать