Análise de texto usando Python: como identificar partes do discurso

Neste blog, mostraremos como fazer análise de texto usando Python para identificar partes do discurso em dados de texto no LuckyTemplates. Abordaremos as etapas para usar o Python para análise de texto e forneceremos exemplos e dicas para ajudá-lo a começar seus próprios projetos de análise de texto. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.

Índice

Dados de origem
Análise de texto usando Python
Corrigindo o código para análise de texto em Python
Conclusão

Dados de origem

Neste tutorial, usaremos uma nuvem de palavras pronta para uso contendo os textos que iremos avaliar. Isso é mostrado no lado esquerdo da imagem abaixo. Do lado direito, temos os filtros para identificar as diferentes classes gramaticais, por exemplo, adjetivos ou verbos.

Análise de texto usando Python: como identificar partes do discurso

Podemos filtrar palavras que são advérbios, substantivos, diferentes tipos de substantivos ou verbos e bases verbais. Isso é muito útil ao criar uma campanha de marketing e procurar palavras nas avaliações de seus clientes.

Vamos começar abrindo nosso editor do Power Query .

Em nossos dados de origem, temos colunas para IDs, idade, título e texto da avaliação. Vamos nos concentrar na coluna Review Text e vamos analisá-la para fazer nossa análise de texto. Existem também outras categorias que podem ser úteis em nossa análise.

Análise de texto usando Python: como identificar partes do discurso

Análise de texto usando Python

Vamos começar com os dados normais que trouxemos. A primeira coisa que faremos é filtrar as linhas porque temos muitos dados e, quando fazemos análise de texto, leva tempo.

Para filtrar nossos dados, pegue as primeiras 50 linhas para tornar a análise de texto um pouco mais rápida.

Análise de texto usando Python: como identificar partes do discurso

Uma vez filtrado, vá para Transform and Run Python script. Vamos codificar tudo aqui porque não há muito código.

Análise de texto usando Python: como identificar partes do discurso

Importando os pacotes

Vamos trazer dois pacotes para nossa análise de texto Python usando nosso editor de script Python . Vamos “importar pandas como pd” , nossa biblioteca de manipulação de dados para ser salva como variável pd. E então “ from text blob ” , vamos “ importar TextBlob” com maiúscula entre as palavras.

Sempre podemos documentar o que estamos fazendo colocando uma string de documento. Vamos escrever #bring nas bibliotecas essenciais em cima de nossos pacotes.

Análise de texto usando Python: como identificar partes do discurso

Renomeando a Variável

Na primeira linha do nosso script, existe esta linha fornecida pelo LuckyTemplates que diz # 'dataset' contém os dados de entrada para este script. Esta linha diz que nossos dados são chamados de conjunto de dados.

Então vamos mudar isso porque demora muito para escrever “conjunto de dados”. Digite #change a variável dataset e df = dataset na próxima linha.

Análise de texto usando Python: como identificar partes do discurso

Agora é mais curto escrever nossa variável.

Fazendo a análise de texto

Prossigamos com nossa análise de texto. Lembre-se de que nossos textos de revisão estão em uma coluna com células individuais. Essa configuração não é muito útil para nós porque queremos todos os textos juntos para podermos fazer uma análise sobre eles.

No entanto, não queremos que eles sejam unidos sem um espaço, então vamos começar nosso código com um espaço entre aspas duplas .

Em seguida, vamos adicionar .join e isolar nossa coluna de texto de revisão usando nossa variável df , que contém o conjunto de dados. Digite 'Review Text' colocado dentro de uma notação de colchetes que isola a coluna.

Esse código vai juntar tudo, mas precisamos salvá-lo então vamos criar uma variável chamada words.

Análise de texto usando Python: como identificar partes do discurso

Depois de reunir todas as palavras, podemos usar nosso blob de texto para começar a analisar as palavras.

A primeira coisa a fazer é criar nossas partes do discurso usando a variável blob que precisamos para passar palavras para um blob de texto. Vamos usar esse blob de texto e passar o texto, que são nossas palavras . Isso é digitado como blob = TextBlob(palavras).

Agora que temos esse blob, vamos pegá-lo e criar nossa variável parts_of_speech usando blob.tags . As tags serão as abreviaturas de cada uma das classes gramaticais.

O que faremos a seguir é salvar isso como um quadro de dados usando Pandas que trouxemos. Vamos chamá-lo de nossos dados , que é igual ao pd.DataFrame e estamos trazendo nosso parts_of_speech .

Análise de texto usando Python: como identificar partes do discurso

Vamos clicar em OK para executar nosso código. Depois de executar nosso código, devemos obter uma tabela de nossas variáveis. Temos o conjunto de dados ou nossos dados originais. Também temos nossos dados e o df .

Análise de texto usando Python: como identificar partes do discurso

Se você não obteve os resultados pretendidos, mostraremos as diferentes maneiras de evitar alguns erros que você pode obter no código.

Corrigindo o código para análise de texto em Python

Às vezes, podemos precisar ser muito explícitos ao alterar o formato do texto que nos interessa.

Podemos fazer isso chamando nossa variável df , isolando 'Review Text ' colocado dentro de uma notação de colchetes e, em seguida, alterando o tipo para strings usando .astype('str') . Em seguida, salve novamente na variável df .

Análise de texto usando Python: como identificar partes do discurso

Clique em OK para executar novamente o código. Devemos obter os mesmos resultados que obtivemos anteriormente.

Agora, queremos abrir nossos dados , a última variável que trouxemos para ver como ela se parece.

Análise de texto usando Python: como identificar partes do discurso

Devemos ter todas as nossas palavras divididas por partes do discurso. Ainda não nomeamos nossas colunas, mas podemos fazer isso facilmente.

Análise de texto usando Python: como identificar partes do discurso

Na versão antiga dessa mesma análise de texto, chamei a primeira coluna de Word e a segunda de Abreviação .

Análise de texto usando Python: como identificar partes do discurso

Na consulta de Partes do discurso , trazemos as palavras reais que são para essas abreviações e as conectamos todas juntas.

Análise de texto usando Python: como identificar partes do discurso

Agora, vamos fechar e aplicar .

Análise de texto usando Python: como identificar partes do discurso

As etapas que fizemos nos permitiram filtrar as diferentes partes do discurso que identificamos usando um código Python simples . Ele nos dá esse visual no LuckyTemplates, onde podemos filtrar facilmente nosso texto com base na categoria de classes gramaticais em que eles se enquadram.

Análise de texto usando Python: como identificar partes do discurso

Análise de texto em Python | Uma Introdução
Python Funções Definidas pelo Usuário | Uma visão geral
da lista do Python e do loop for no LuckyTemplates

Conclusão

Como analista de dados , você pode se deparar com a necessidade de extrair insights e significado de grandes quantidades de dados de texto não estruturados. O que você aprendeu é uma abordagem útil para entender os dados de texto por meio da análise de texto.

Agora, você pode dividir facilmente o texto em unidades menores, como palavras e frases, e depois analisar essas unidades em busca de padrões e relacionamentos. Você pode atingir todos esses objetivos usando análise de texto em Python e LuckyTemplates.

Tudo de bom,

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.

Análise de texto usando Python: como identificar partes do discurso

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Atributos pré-atentivos: como isso pode afetar seu relatório

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Variáveis ​​e expressões dentro do editor do Power Query

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Variáveis e expressões dentro do editor do Power Query