Анализ текста в Python | Введение

В этом блоге мы собираемся обсудить анализ текста в Python для создания сконструированных данных из текстового содержимого. Это поможет вам анализировать большие объемы данных и тратить меньше времени на работу над определенными задачами. Вы также получите знания о текстовых блобах , связанных с задачами обработки естественного языка.

Анализ текста — это процесс анализа текстов с использованием кодов для автоматизированных процессов создания и группировки текстовых данных.

Прежде чем мы продолжим, вам, возможно, придется установить библиотеку, которую мы будем использовать в этом руководстве.

Оглавление

Реализация анализа текста в Python
Токенизация текстовых данных в Python
Объединение токенов для формирования предложения в Python
- Разделение текстового блоба на части речи с помощью функции .tags
- Использование функции ngrams для анализа текста в Python
Заключение

Реализация анализа текста в Python

Начнем с импорта textblob . Не забывайте документировать свои действия с помощью комментариев.

Анализ текста в Python | Введение

Запустив приведенный выше код, мы получили доступ к библиотеке textblob . Следующим шагом, который мы собираемся сделать, является создание предложения, которое мы собираемся использовать в наших примерах. Мы собираемся сделать это, сохранив предложение в переменной с именем предложение .

Не забудьте заключить предложение, которое вы хотите добавить, в двойные кавычки.

Анализ текста в Python | Введение

Textblob — отличная библиотека, в которой мы можем создать большой двоичный объект и использовать некоторые из его функций для анализа текста в Python .

Анализ текста в Python | Введение

При создании большого двоичного объекта мы начинаем с создания переменной и присваиваем ей имя blob . В эту переменную нам нужно добавить TextBlob — библиотеку, которую мы используем.

Внутри круглых скобок мы будем использовать переменную предложения , которая содержит предложение, которое мы создали ранее. Обратите внимание, что вы можете вручную ввести само предложение в скобках для этой части.

Чтобы проверить, что делает эта переменная большого двоичного объекта , вы можете просто инициализировать ее, введя имя переменной и нажав клавиши Shift + Enter. Вывод должен быть похож на пример ниже.

Анализ текста в Python | Введение

Как видно из результата, предложение, которое мы сохранили в переменной предложения , теперь содержится в TextBlob .

Токенизация текстовых данных в Python

Если вы хотите удалить некоторые слова в предложении, мы можем разделить каждое из этих слов на отдельные части в списке. Что мы собираемся сделать с данным предложением, так это маркировать их или разделить каждое слово и поместить его в список.

Для этого мы будем использовать переменную blob и использовать функцию tokenize . Затем мы сохраним его в переменной с именем words .

Анализ текста в Python | Введение

Давайте инициализируем переменную words так же, как мы инициализировали переменную blob , чтобы увидеть, что находится в токенизированном списке.

Анализ текста в Python | Введение

Как видите, каждое из слов и даже знаки препинания теперь разделены в списке. Вот как работает функция токенизации .

Теперь, когда у нас есть список слов, мы можем выполнить из него другую функцию. Давайте создадим еще один список слов, которые мы не хотим включать в наш список, таких как знаки препинания и артикли. Чтобы выполнить этот шаг, обратитесь к снимку экрана ниже.

Анализ текста в Python | Введение

При создании списка стоп-слов мы использовали скобки, чтобы заключить список стоп-слов. Затем каждое из стоп-слов заключается в одинарные кавычки и отделяется запятой. Мы сохранили список в переменной stop_words .

Отсюда мы собираемся выполнить распознавание списка , чтобы удалить слова, необходимые для проведения анализа текста в Python . Это включает в себя очистку предложений, токенизацию и сравнение различных списков. Теперь мы сравним эти два списка и создадим новый список clean_tokens .

Анализ текста в Python | Введение

В коде, представленном выше, мы использовали заполнитель w для представления элемента . Что мы пытаемся сделать в этой части, так это получить элемент в переменной words, если элемент не существует в переменной stop_words . Если мы собираемся инициализировать clean_tokens , это будет результат.

Анализ текста в Python | Введение

В этом процессе мы можем очистить наши токены , запустив процесс удаления ненужных токенов, таких как знаки препинания и артикли. Из-за этого в нашем списке остались только ключевые слова.

Объединение токенов для формирования предложения в Python

Теперь, когда мы разделили чистые токены , давайте попробуем объединить их в одно предложение. Для этого мы должны использовать функцию .join . Проверьте приведенный ниже пример для справки.

Анализ текста в Python | Введение

В приведенном выше примере мы создали переменную с именем clean_sentence для хранения токенов очистки, которые будут объединены в предложение. Вы также можете заметить, что мы добавили пробел, заключенный в двойные кавычки, и функцию .join . Внутри параметров мы включили переменную clean_tokens .

Это будет вывод, если мы инициализируем переменную clean_sentence .

Анализ текста в Python | Введение

Примечательно, что предложение выглядит неправильно, потому что ранее мы удалили артикли и знаки препинания.

После создания clean_sentence давайте попробуем создать новый текстовый BLOB-объект , содержащий только что созданное clean_sentence . Затем мы сохраним его в новой переменной clean_blob .

Анализ текста в Python | Введение

Разделение текстового блоба на части речи с помощью функции .tags

Из этого большого двоичного объекта анализа мы можем использовать его части для проверки частей речи или внесения дополнительных изменений. Давайте попробуем проверить части речи каждого слова в нашем новом текстовом блобе .

Анализ текста в Python | Введение

Чтобы проверить части речи в текстовом блобе, вы должны использовать функцию .tags . Я сделал это, используя нашу переменную clean_blob , а затем сразу же добавил функцию .tags .

Если вы когда-нибудь получите сообщение об ошибке при инициализации функции .tags , просто прочитайте и выполните шаги, чтобы исправить ошибку. В данном случае это выглядит так.

Анализ текста в Python | Введение

Если вы прокрутите вниз в конце этого сообщения об ошибке, вы увидите необходимые данные, которые вам нужны для функции, которую вы пытаетесь использовать.

Анализ текста в Python | Введение

Как только мы найдем код, который нам нужно инициализировать, чтобы загрузить необходимые данные, просто скопируйте код, а затем откройте Anaconda Prompt с помощью поиска Windows .

Анализ текста в Python | Введение

С помощью Anaconda Prompt попробуем исправить ошибку, которую получили при инициализации функции .tags . Теперь мы вставим код, который мы скопировали из сообщения об ошибке ранее, и запустим его, нажав Enter .

Анализ текста в Python | Введение

После завершения попробуйте снова запустить функцию .tags и посмотрите, работает ли она.

Анализ текста в Python | Введение

После повторного запуска кода мы видим, что ошибка исправлена, и мы получили результат, который содержит каждое слово из нового текстового блоба вместе с тегами или частями речи.

Если вы понятия не имеете, что означают эти теги , вы можете просто зайти на веб-сайт textblob и проверить, что представляют собой эти теги.

Использование функции ngrams для анализа текста в Python

Давайте перейдем к другому примеру, связанному с получением ngrams . Функция ngrams используется для поиска слов, которые часто встречаются вместе в предложении или документе. В качестве примера начнем с создания нового текстового блоба и сохранения его в переменной blob3 .

Анализ текста в Python | Введение

После этого воспользуемся функцией ngrams в переменной blob3 для проверки некоторых комбинаций слов.

Анализ текста в Python | Введение

По умолчанию, если вы не указали значение в параметрах, будут отображаться триграммы или комбинации из 3 слов. Но если мы хотим видеть комбинации из двух слов из предложения, мы можем установить 2 в параметрах, как в примере ниже.

Анализ текста в Python | Введение

Давайте попробуем на этот раз более длинное предложение. В этом примере я просто скопировал более длинный текст из обзора фильма. Вы можете использовать любое предложение для этой части.

Анализ текста в Python | Введение

В качестве последнего примера попробуем еще раз использовать ngrams с более информативным предложением.

Анализ текста в Python | Введение

Со всеми этими примерами мы можем выполнять дополнительный анализ текста в Python на основе результатов, которые мы получаем с помощью функции ngrams .

Python II для пользователей LuckyTemplates — новый курс на платформе On-Demand
Как загрузить примеры наборов данных в Python
с помощью Python в LuckyTemplates | Набор данных и строковая функция

Заключение

Подводя итог, вы узнали о различных функциях, которые можно использовать для выполнения анализа текста в Python.

Это функция .tokenize для разделения слов в предложении, функция .join для объединения токенизированных слов, функция .tags для проверки частей речи слов и функция ngrams для просмотра сочетания слов.

Кроме того, вы узнали, как исправлять ошибки, подобные тому, что мы делали в функции .tags с помощью Anaconda Prompt . Вы также узнали, как импортировать, создавать текстовые BLOB-объекты и использовать эту библиотеку для выполнения анализа текста в Python .

Всего наилучшего,

Гаэллим

Leave a Comment

Расчет недельных продаж с помощью DAX в LuckyTemplates

Расчет недельных продаж с помощью DAX в LuckyTemplates

В этом руководстве показано, как в конечном итоге можно рассчитать разницу между еженедельными результатами продаж с помощью DAX в LuckyTemplates.

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Как сохранить и загрузить файл RDS в R

Как сохранить и загрузить файл RDS в R

Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.

Введение в фильтрацию контекста в LuckyTemplates

Введение в фильтрацию контекста в LuckyTemplates

В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.

Идеи материализации кэшей данных в DAX Studio

Идеи материализации кэшей данных в DAX Studio

В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.

Бизнес-отчетность с использованием LuckyTemplates

Бизнес-отчетность с использованием LuckyTemplates

Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.