Como carregar conjuntos de dados de amostra em Python

Como carregar conjuntos de dados de amostra em Python

Nesta postagem, veremos como carregar conjuntos de dados de amostra em Python. Isso pode não parecer o tópico mais glamoroso, mas na verdade é muito importante. Idealmente, você terá alguns conjuntos de dados em Python com os quais poderá praticar quando estiver aprendendo novos conceitos. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.

Se você for compartilhar seu código , documentar o que fez ou precisar de ajuda , é realmente uma boa ideia usar um conjunto de dados geralmente disponível para construir algo que é chamado de exemplo minimamente reproduzível .

Você terá um código ou script pré-empacotado que outra pessoa na Internet pode executar e ajudá-lo. Se você não produzir esses exemplos minimamente reproduzíveis , será criticado em lugares como Stack Overflow, o que pode ser um pouco chocante se você não estiver familiarizado com ele.

Como carregar conjuntos de dados de amostra em Python

Vejamos algumas maneiras de criar esses exemplos minimamente reproduzíveis e obter os conjuntos de dados. Existem alguns pacotes que você pode usar para carregar um conjunto de dados pré-fabricado no Python e compartilhar esse código.

Veremos três pacotes que são os mais comuns. Vamos iniciar um notebook Jupyter em branco e começar.

Como carregar conjuntos de dados de amostra em Python

Índice

Carregar conjuntos de dados em Python do Sklearn

O primeiro que veremos é chamado Sklearn . Se você estiver usando o Anaconda, não precisará fazer o download. Se você quiser mais ajuda com o Python, o LuckyTemplates tem um no qual você pode se inscrever.

Vou assumir que você já sabe sobre coisas como pacotes e partir daí. Vamos trazer pandas e Sklearn, especificamente o submódulo do conjunto de dados.

Como carregar conjuntos de dados de amostra em Python

Vamos trazer alguns desses conjuntos de dados. Scikit-learn – uma biblioteca de dados de aprendizado de máquina – os chama de conjuntos de dados de brinquedo. Vamos carregar Boston, que é um conjunto de dados de preços de imóveis. Quando trazemos isso, precisamos tê-lo como um quadro de dados.

Precisamos realmente especificar que os dados e as colunas vêm do conjunto de dados Scikit-learn e separar as variáveis ​​de recurso e as variáveis ​​de destino.

Como carregar conjuntos de dados de amostra em Python

Vamos colocar isso como um quadro de dados para que possamos operar e fazer coisas diferentes com ele. O Panda é um ótimo pacote para ser conhecido como usuário do LuckyTemplates.

Carregar conjuntos de dados em Python a partir de conjuntos de dados Vega

Outra opção que podemos aprender é o pacote de conjuntos de dados Vega. Este não está disponível no Anaconda, mas podemos instalá-lo através do PIP. Isso é o que digitaremos na linha de comando para instalar os conjuntos de dados Vega e para instalar ou importar o módulo de dados local.

Como carregar conjuntos de dados de amostra em Python

Alguns deles você pode realmente obter, mas precisará de uma conexão com a web. Traremos os que são instalados localmente importando dados locais e executando-os.

Como carregar conjuntos de dados de amostra em Python

Como você pode ver, existem alguns conjuntos de dados. Algumas delas são séries temporais, enquanto outras têm variáveis ​​categóricas ou contínuas. Vamos escolher o conjunto de dados dos carros em um quadro de dados para que possamos executar o método head nele.

Como carregar conjuntos de dados de amostra em Python

Agora, temos outro conjunto de dados de amostra que podemos usar e compartilhar.

Como carregar conjuntos de dados de amostra em Python

Carregar conjuntos de dados em Python de Seaborn

Seaborn é outro pacote disponível na distribuição do Anaconda. Por padrão, o Seaborn é mais conhecido pela visualização de dados, mas também possui alguns conjuntos de dados de amostra excelentes que você pode usar. Isso é o que digitaremos para obter conjuntos de dados.

Como carregar conjuntos de dados de amostra em Python

Como você pode ver, existem alguns conjuntos de dados aqui. Iremos em frente e usaremos o conjunto de dados dos pinguins e obteremos as primeiras linhas novamente.

Como carregar conjuntos de dados de amostra em Python

O resultado é outro conjunto de dados para praticarmos.

Como carregar conjuntos de dados de amostra em Python

A ideia aqui não é apenas ter os conjuntos de dados para praticar. Se estivermos vendo alguns valores ausentes, tendo problemas para descartar conjuntos de dados, querendo preencher a variável categórica ou mostrando um exemplo para outras pessoas sem fornecer alguns dados confidenciais, basta usar um desses conjuntos de dados acessíveis ao público que são muito, muito fáceis para as pessoas usarem e compartilharem. Essa é a ideia de um exemplo minimamente reproduzível.

LuckyTemplates com script Python para criar tabelas de datas
Python no LuckyTemplates: como instalar e configurar
o Python I para usuários do LuckyTemplates – Novo curso na plataforma educacional LuckyTemplates

Conclusão

Para recapitular, há três locais para procurar conjuntos de dados de amostra. O Scikit-learn é um pacote de aprendizado de máquina. É um pouco mais difícil de converter, mas se você estiver fazendo coisas relacionadas ao aprendizado de máquina, este é o lugar certo. Os conjuntos de dados Vega também possuem um bom número de conjuntos de dados, especialmente se você usar o método para obter conjuntos de dados da web, mas é relativamente mais difícil de carregar, então você só precisa usar o PIP em vez de tê-lo pré-instalado com o Anaconda. Seaborn é o ponto ideal porque carrega o quadro de dados e tem muita versatilidade quando se trata de usar conjuntos de dados de amostra e exemplos reproduzíveis.

O Stack Overflow também possui um tutorial sobre como escrever um bom exemplo minimamente reproduzível ou MRE, portanto, verifique se deseja postar algo online.

Saber onde obter bons conjuntos de dados e compartilhar um bom MRE é uma habilidade muito importante para se ter como analista.

Se você gostou do conteúdo abordado neste tutorial específico, assine o canal de TV LuckyTemplates. Temos uma grande quantidade de conteúdo sendo publicado o tempo todo, meu e de vários criadores de conteúdo – todos dedicados a melhorar a maneira como você usa o LuckyTemplates e a Power Platform.


O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.

Apresentar insights usando a técnica de visuais dinâmicos multithread no LuckyTemplates

Apresentar insights usando a técnica de visuais dinâmicos multithread no LuckyTemplates

Este tutorial abordará como usar a técnica Multi Threaded Dynamic Visuals para criar insights de visualizações de dados dinâmicos em seus relatórios.

Introdução ao contexto de filtro no LuckyTemplates

Introdução ao contexto de filtro no LuckyTemplates

Neste artigo, analisarei o contexto do filtro. O contexto do filtro é um dos principais tópicos sobre os quais qualquer usuário do LuckyTemplates deve aprender inicialmente.

Melhores dicas para usar os aplicativos no serviço online do LuckyTemplates

Melhores dicas para usar os aplicativos no serviço online do LuckyTemplates

Quero mostrar como o serviço online do LuckyTemplates Apps pode ajudar no gerenciamento de diferentes relatórios e insights gerados de várias fontes.

Analisar alterações de margem de lucro ao longo do tempo – Analytics com LuckyTemplates e DAX

Analisar alterações de margem de lucro ao longo do tempo – Analytics com LuckyTemplates e DAX

Aprenda a calcular suas alterações de margem de lucro usando técnicas como ramificação de medida e combinação de fórmulas DAX no LuckyTemplates.

Ideias de materialização para caches de dados no DAX Studio

Ideias de materialização para caches de dados no DAX Studio

Este tutorial discutirá sobre as ideias de materialização de caches de dados e como elas afetam o desempenho dos DAXs no fornecimento de resultados.

Relatórios de negócios usando o LuckyTemplates

Relatórios de negócios usando o LuckyTemplates

Se você ainda estiver usando o Excel até agora, este é o melhor momento para começar a usar o LuckyTemplates para suas necessidades de relatórios de negócios.

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber