Colunas calculadas no SharePoint | Uma visão geral
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Neste blog, mostraremos como fazer análise de texto usando Python para identificar partes do discurso em dados de texto no LuckyTemplates. Abordaremos as etapas para usar o Python para análise de texto e forneceremos exemplos e dicas para ajudá-lo a começar seus próprios projetos de análise de texto. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.
Índice
Dados de origem
Neste tutorial, usaremos uma nuvem de palavras pronta para uso contendo os textos que iremos avaliar. Isso é mostrado no lado esquerdo da imagem abaixo. Do lado direito, temos os filtros para identificar as diferentes classes gramaticais, por exemplo, adjetivos ou verbos.
Podemos filtrar palavras que são advérbios, substantivos, diferentes tipos de substantivos ou verbos e bases verbais. Isso é muito útil ao criar uma campanha de marketing e procurar palavras nas avaliações de seus clientes.
Vamos começar abrindo nosso editor do Power Query .
Em nossos dados de origem, temos colunas para IDs, idade, título e texto da avaliação. Vamos nos concentrar na coluna Review Text e vamos analisá-la para fazer nossa análise de texto. Existem também outras categorias que podem ser úteis em nossa análise.
Análise de texto usando Python
Vamos começar com os dados normais que trouxemos. A primeira coisa que faremos é filtrar as linhas porque temos muitos dados e, quando fazemos análise de texto, leva tempo.
Para filtrar nossos dados, pegue as primeiras 50 linhas para tornar a análise de texto um pouco mais rápida.
Uma vez filtrado, vá para Transform and Run Python script. Vamos codificar tudo aqui porque não há muito código.
Importando os pacotes
Vamos trazer dois pacotes para nossa análise de texto Python usando nosso editor de script Python . Vamos “importar pandas como pd” , nossa biblioteca de manipulação de dados para ser salva como variável pd. E então “ from text blob ” , vamos “ importar TextBlob” com maiúscula entre as palavras.
Sempre podemos documentar o que estamos fazendo colocando uma string de documento. Vamos escrever #bring nas bibliotecas essenciais em cima de nossos pacotes.
Renomeando a Variável
Na primeira linha do nosso script, existe esta linha fornecida pelo LuckyTemplates que diz # 'dataset' contém os dados de entrada para este script. Esta linha diz que nossos dados são chamados de conjunto de dados.
Então vamos mudar isso porque demora muito para escrever “conjunto de dados”. Digite #change a variável dataset e df = dataset na próxima linha.
Agora é mais curto escrever nossa variável.
Fazendo a análise de texto
Prossigamos com nossa análise de texto. Lembre-se de que nossos textos de revisão estão em uma coluna com células individuais. Essa configuração não é muito útil para nós porque queremos todos os textos juntos para podermos fazer uma análise sobre eles.
No entanto, não queremos que eles sejam unidos sem um espaço, então vamos começar nosso código com um espaço entre aspas duplas .
Em seguida, vamos adicionar .join e isolar nossa coluna de texto de revisão usando nossa variável df , que contém o conjunto de dados. Digite 'Review Text' colocado dentro de uma notação de colchetes que isola a coluna.
Esse código vai juntar tudo, mas precisamos salvá-lo então vamos criar uma variável chamada words.
Depois de reunir todas as palavras, podemos usar nosso blob de texto para começar a analisar as palavras.
A primeira coisa a fazer é criar nossas partes do discurso usando a variável blob que precisamos para passar palavras para um blob de texto. Vamos usar esse blob de texto e passar o texto, que são nossas palavras . Isso é digitado como blob = TextBlob(palavras).
Agora que temos esse blob, vamos pegá-lo e criar nossa variável parts_of_speech usando blob.tags . As tags serão as abreviaturas de cada uma das classes gramaticais.
O que faremos a seguir é salvar isso como um quadro de dados usando Pandas que trouxemos. Vamos chamá-lo de nossos dados , que é igual ao pd.DataFrame e estamos trazendo nosso parts_of_speech .
Vamos clicar em OK para executar nosso código. Depois de executar nosso código, devemos obter uma tabela de nossas variáveis. Temos o conjunto de dados ou nossos dados originais. Também temos nossos dados e o df .
Se você não obteve os resultados pretendidos, mostraremos as diferentes maneiras de evitar alguns erros que você pode obter no código.
Corrigindo o código para análise de texto em Python
Às vezes, podemos precisar ser muito explícitos ao alterar o formato do texto que nos interessa.
Podemos fazer isso chamando nossa variável df , isolando 'Review Text ' colocado dentro de uma notação de colchetes e, em seguida, alterando o tipo para strings usando .astype('str') . Em seguida, salve novamente na variável df .
Clique em OK para executar novamente o código. Devemos obter os mesmos resultados que obtivemos anteriormente.
Agora, queremos abrir nossos dados , a última variável que trouxemos para ver como ela se parece.
Devemos ter todas as nossas palavras divididas por partes do discurso. Ainda não nomeamos nossas colunas, mas podemos fazer isso facilmente.
Na versão antiga dessa mesma análise de texto, chamei a primeira coluna de Word e a segunda de Abreviação .
Na consulta de Partes do discurso , trazemos as palavras reais que são para essas abreviações e as conectamos todas juntas.
Agora, vamos fechar e aplicar .
As etapas que fizemos nos permitiram filtrar as diferentes partes do discurso que identificamos usando um código Python simples . Ele nos dá esse visual no LuckyTemplates, onde podemos filtrar facilmente nosso texto com base na categoria de classes gramaticais em que eles se enquadram.
Análise de texto em Python | Uma Introdução
Python Funções Definidas pelo Usuário | Uma visão geral
da lista do Python e do loop for no LuckyTemplates
Conclusão
Como analista de dados , você pode se deparar com a necessidade de extrair insights e significado de grandes quantidades de dados de texto não estruturados. O que você aprendeu é uma abordagem útil para entender os dados de texto por meio da análise de texto.
Agora, você pode dividir facilmente o texto em unidades menores, como palavras e frases, e depois analisar essas unidades em busca de padrões e relacionamentos. Você pode atingir todos esses objetivos usando análise de texto em Python e LuckyTemplates.
Tudo de bom,
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates
Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.
Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.
Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.
Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.
Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.
O que é self em Python: exemplos do mundo real
Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.
Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.