Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

Uma das perguntas mais comuns que você encontrará como analista de dados é qual é a melhor maneira de explorar um determinado conjunto de dados. Essa é uma consideração importante, principalmente se você deseja reunir todos os dados em um relatório fácil de interpretar por você ou por sua equipe. Neste tutorial, vou demonstrar como você pode explorar com eficiência conjuntos de dados em Pandas usando ProfileReport(). Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.

Quando você recebe um conjunto de dados, o que você faz? Como você explora o conjunto de dados? Principalmente, se você deseja reunir tudo em um relatório fácil de ler para você, para colegas de trabalho, etc., você tem muitas coisas a considerar.

Primeiro, você pensa sobre que tipos de variáveis são porque isso vai influenciar a forma como você as analisa e como as trata. Dados significam o que é dado. Então, o que falta são os dados que não temos. Outra coisa é visualizar esses relacionamentos. Como eles se parecem? Queremos usar esse poder de visualização cedo e com frequência.

Estas são muitas questões complexas interligadas. O bom é que existe essa função de relatório de criação de perfil disponível que nos dará essas respostas. Então, vamos ver tudo isso em Python.

Índice

Explorar conjuntos de dados em Pandas usando a função ProfileReport()
Conclusão

Explorar conjuntos de dados em Pandas usando a função ProfileReport()

Primeiro, vamos carregar o conjunto de dados.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

Em seguida, de pandas_profiling , vamos importar essa coisa chamada relatório de perfil. Agora, se você receber um erro aqui, provavelmente precisará instalá-lo. Estou usando Anaconda. Eu sugiro que você use isso também. Vamos executar isso e, em seguida, imprimi-lo.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

Então aqui está. Temos uma visão geral . Isso nos dá uma divisão dos tipos de variáveis. Temos as estatísticas do conjunto de dados. Vemos o número de colunas de linha, e assim por diante. A coisa boa com este relatório é que ele é como um balcão único e também parece muito bom. Tem uma apresentação muito apelativa.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

Descemos aqui e temos as Variáveis . Obtemos uma visualização e podemos alternar mais detalhes sobre a variável. Temos sinalizadores que indicam coisas que podem ser um pouco incomuns. Também temos esses alertas e muitos outros recursos que nos fornecerão mais informações. E isso é para cada variável.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

À medida que continuamos a rolar para baixo, encontraremos as Interações, onde são criados gráficos de dispersão para visualizar os dados.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

E então, temos Correlations , que resumiu o relacionamento.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

Em seguida, estão os valores ausentes , que são muito importantes. Como você pode ver, temos alguns valores ausentes aqui e queremos saber o porquê. Essas visualizações aqui são destinadas a nos ajudar a fazer isso. Podemos clicar em cada visual e analisar os dados.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

Por último, temos a amostra. Poderíamos obter isso de várias maneiras, mas tudo isso é apenas imprimir as primeiras linhas, o que é bom saber.

Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

MultiIndex em Pandas para dados multiníveis ou hierárquicos
Como carregar conjuntos de dados de amostra em Python
Python no LuckyTemplates: como instalar e configurar

Conclusão

É assim que você explora conjuntos de dados no Pandas usando a função ProfileReport(). Existem várias maneiras de dividir e dividir os dados. Pense em todas as combinações de permutações dos dados. Isso não será capaz de fazer tudo por você, mas é um bom começo.

Quando exploramos dados, é realmente um processo iterativo. Não há pílula mágica pronta tanto quanto podemos querer uma. No entanto, o ProfilerReport() é realmente uma ótima ferramenta. Obtemos muitas informações e apenas uma linha de código. Esta é uma ferramenta gratuita, então espero que você possa usá-la em seu próprio trabalho. Deixe-nos saber como você faz isso.

Tudo de bom!

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis e expressões dentro do editor do Power Query

Variáveis e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.