Análise de texto em Python | Uma introdução

Neste blog, discutiremos a análise de texto em Python para criar dados construídos a partir de conteúdo de texto. Isso ajudará você a analisar grandes quantidades de dados e a consumir menos tempo trabalhando em determinadas tarefas. Você também adquirirá conhecimento sobre textblob que lida com tarefas de processamento de linguagem natural.

A análise de texto é o processo de análise de textos usando códigos para processos automatizados de produção e agrupamento de dados de texto.

Antes de prosseguirmos, talvez seja necessário instalar a biblioteca que usaremos neste tutorial.

Índice

Implementando análise de texto em Python

Vamos começar importando textblob . Lembre-se de documentar o que você está fazendo com o uso de comentários.

Análise de texto em Python |  Uma introdução

Ao executar o código acima, agora temos acesso à biblioteca textblob . A próxima etapa que faremos é criar uma frase que usaremos em nossos exemplos. Faremos isso armazenando uma sentença em uma variável chamada sentença .

Lembre-se de colocar a frase que deseja adicionar entre aspas duplas.

Análise de texto em Python |  Uma introdução

O textblob é uma ótima biblioteca onde podemos criar um blob e usar algumas de suas funções para nossa análise de texto em Python .

Análise de texto em Python |  Uma introdução

Ao criar o blob, começamos criando uma variável e nomeando-a como blob . Nesta variável, precisamos adicionar TextBlob que é a biblioteca que estamos usando.

Dentro dos parênteses, utilizaremos a variável de sentença que contém a sentença que criamos anteriormente. Observe que você pode optar por digitar manualmente a própria frase dentro dos parênteses para esta parte.

Para verificar o que esta variável blob faz, você pode simplesmente inicializá-la digitando o nome da variável e pressionando as teclas Shift + Enter. A saída deve ser semelhante ao exemplo abaixo.

Análise de texto em Python |  Uma introdução

Como você pode ver no resultado, a frase que armazenamos na variável de frase agora está contida em TextBlob .

Tokenizando dados de texto em Python

Se você quiser remover algumas palavras de uma frase, podemos separar cada uma dessas palavras em partes individuais em uma lista. Com essa frase dada, o que vamos fazer é tokenizá-las ou separar cada palavra e colocá-la em uma lista.

Para fazer isso, vamos utilizar a variável blob e usar a função tokenize . Em seguida, vamos armazená-lo em uma variável chamada words .

Análise de texto em Python |  Uma introdução

Vamos inicializar a variável words da mesma forma que fizemos ao inicializar a variável blob para ver o que está na lista tokenizada .

Análise de texto em Python |  Uma introdução

Como você pode ver, cada uma das palavras e até mesmo os sinais de pontuação agora estão separados em uma lista. É assim que a função tokenize funciona.

Agora que temos uma lista de palavras, podemos executar outra função a partir dela. Vamos criar outra lista de palavras que não queremos que sejam incluídas em nossa lista, como pontuações e artigos. Para executar esta etapa, consulte a captura de tela abaixo.

Análise de texto em Python |  Uma introdução

Ao criar a lista de palavras de parada, usamos colchetes para delimitar a lista de palavras de parada. Em seguida, cada uma das palavras de parada é colocada entre aspas simples e cada uma é separada por uma vírgula. Armazenamos a lista na variável stop_words .

A partir daqui, vamos realizar uma compreensão de lista para remover palavras necessárias para conduzir a análise de texto em Python . Isso inclui frases de limpeza, tokenização e comparação de listas diferentes. Agora vamos comparar essas duas listas e criar uma nova lista de clean_tokens .

Análise de texto em Python |  Uma introdução

No código apresentado acima, utilizamos um espaço reservado que é w para representar um elemento . O que estamos tentando fazer nesta parte é obter o elemento na variável words se o elemento não existir na variável stop_words . Se vamos inicializar clean_tokens , este será o resultado.

Análise de texto em Python |  Uma introdução

Nesse processo, podemos limpar nossos tokens colocando em um processo de remoção de tokens desnecessários, como pontuações e artigos. Por causa disso, só temos as palavras essenciais em nossa lista.

Juntando tokens para formar uma frase em Python

Agora que separamos os tokens limpos , vamos tentar colocá-los juntos em uma frase. Para fazer isso, temos que utilizar a função .join . Verifique o exemplo abaixo para referência.

Análise de texto em Python |  Uma introdução

No exemplo acima, criamos uma variável chamada clean_sentence para armazenar nossos tokens limpos que serão combinados em uma frase. Você também pode notar que adicionamos um espaço entre aspas duplas e a função .join . Dentro dos parâmetros, incluímos a variável clean_tokens .

Esta será a saída se inicializarmos a variável clean_sentence .

Análise de texto em Python |  Uma introdução

Notavelmente, a frase não parece correta porque removemos os artigos e as pontuações anteriormente.

Depois de criar a clean_sentence , vamos tentar criar um novo textblob contendo a clean_sentence que acabamos de criar. Em seguida, vamos armazená-lo em uma nova variável clean_blob .

Análise de texto em Python |  Uma introdução

Dissecando um textblob para partes do discurso usando a função .tags

A partir desse blob de análise, podemos usar as partes desse blob para verificar as partes do discurso ou fazer ainda mais alterações. Vamos tentar verificar as classes gramaticais de cada palavra em nosso novo textblob .

Análise de texto em Python |  Uma introdução

Para verificar as partes do discurso em um textblob, você deve usar a função .tags . Fiz isso utilizando nossa variável clean_blob e adicionei a função .tags logo em seguida.

Se alguma vez você receber uma mensagem de erro ao inicializar a função .tags , basta ler e seguir os passos para corrigir o erro. Neste caso, é assim que parece.

Análise de texto em Python |  Uma introdução

Se você rolar para baixo no final desta mensagem de erro, verá os dados necessários para o recurso que está tentando usar.

Análise de texto em Python |  Uma introdução

Depois de encontrar o código que precisamos inicializar para baixar os dados necessários, basta copiar o código e abrir o Prompt do Anaconda usando a Pesquisa do Windows .

Análise de texto em Python |  Uma introdução

Usando Anaconda Prompt , tentaremos corrigir o erro que recebemos ao inicializar a função .tags . Agora vamos colar o código que copiamos da mensagem de erro anterior e executá-lo pressionando Enter .

Análise de texto em Python |  Uma introdução

Quando terminar, tente executar a função .tags novamente e veja se funciona.

Análise de texto em Python |  Uma introdução

Ao executar o código novamente, podemos ver que o erro foi corrigido e recebemos um resultado que contém cada palavra do novo textblob junto com as tags ou classes gramaticais.

Se você não tem ideia do que essas tags significam, basta acessar o site do textblob para verificar o que essas tags representam. 

Utilizando a função ngrams para análise de texto em Python

Vamos passar para outro exemplo, que trata de obter os ngrams . A função ngrams é usada para procurar palavras que são frequentemente vistas juntas em uma frase ou documento. Como exemplo, vamos começar criando um novo textblob e armazená-lo na variável blob3 .

Análise de texto em Python |  Uma introdução

Depois disso, vamos utilizar a função ngrams na variável blob3 para verificar algumas combinações de palavras.

Análise de texto em Python |  Uma introdução

Por padrão, se você não especificou um valor nos parâmetros, ele exibirá trigramas ou combinações de 3 palavras. Mas se quisermos ver combinações de 2 palavras da frase, podemos definir 2 nos parâmetros como no exemplo abaixo.

Análise de texto em Python |  Uma introdução

Vamos tentar com uma frase mais longa desta vez. Neste exemplo, apenas copiei um texto mais longo de uma resenha de filme. Você pode usar qualquer frase que desejar para esta parte.

Análise de texto em Python |  Uma introdução

Como exemplo final, vamos tentar usar ngrams mais uma vez com uma frase mais informativa.

Análise de texto em Python |  Uma introdução

Com todos esses exemplos, podemos realizar mais análises de texto em Python com base nos resultados que estamos obtendo com a função ngrams .


Python II para usuários do LuckyTemplates – Novo curso na plataforma sob demanda
Como carregar conjuntos de dados de amostra em Python
usando Python no LuckyTemplates | Conjunto de dados e função de string

Conclusão

Resumindo, você aprendeu sobre as diferentes funções que pode utilizar para executar a análise de texto em Python.

Estas são a função .tokenize para separar palavras em uma frase, a função .join para combinar palavras tokenizadas, a função .tags para verificar as partes do discurso das palavras e a função ngrams para visualizar a combinação de palavras.

Além disso, você aprendeu como corrigir erros como o que fizemos na função .tags usando o Anaconda Prompt . Você também aprendeu como importar, criar um textblob e utilizar esta biblioteca para realizar análises de texto em Python .

Tudo de bom,

gaellim

Leave a Comment

Colunas calculadas no SharePoint | Uma visão geral

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis ​​e expressões dentro do editor do Power Query

Variáveis ​​e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.