Cómo cargar conjuntos de datos de muestra en Python

Cómo cargar conjuntos de datos de muestra en Python

En esta publicación, veremos cómo cargar conjuntos de datos de muestra en Python. Puede que este no parezca el tema más glamoroso, pero en realidad es bastante importante. Idealmente, tendrá algunos conjuntos de datos en Python con los que podrá practicar cuando esté aprendiendo nuevos conceptos. Puedes ver el video completo de este tutorial en la parte inferior de este blog.

Si va a compartir su código , documentar lo que ha hecho o necesita ayuda , es realmente una buena idea usar un conjunto de datos generalmente disponible para construir algo que se llama un ejemplo mínimamente reproducible .

Vas a tener un código o secuencia de comandos preempaquetado que otra persona en Internet puede ejecutar y ayudarte. Si no produce estos ejemplos mínimamente reproducibles , se quema en lugares como Stack Overflow, lo que puede ser un poco impactante si no está familiarizado con él.

Cómo cargar conjuntos de datos de muestra en Python

Veamos algunas formas de crear estos ejemplos mínimamente reproducibles y obtener los conjuntos de datos. Hay algunos paquetes que puede usar para cargar un conjunto de datos prefabricado en Python y compartir ese código.

Veremos tres paquetes que son los más comunes. Encendamos un cuaderno Jupyter en blanco y comencemos.

Cómo cargar conjuntos de datos de muestra en Python

Tabla de contenido

Cargar conjuntos de datos en Python desde Sklearn

El primero que veremos se llama Sklearn . Si está utilizando Anaconda, no necesitará descargar esto. Si desea obtener más ayuda con Python, LuckyTemplates tiene un en el que puede inscribirse.

Asumiré que ya conoces cosas como los paquetes y partiré de ahí. Vamos a traer pandas y Sklearn, específicamente el submódulo del conjunto de datos.

Cómo cargar conjuntos de datos de muestra en Python

Vamos a traer algunos de estos conjuntos de datos. Scikit-learn , una biblioteca de datos de aprendizaje automático, los llama conjuntos de datos de juguete. Vamos a cargar Boston, que es un conjunto de datos de precios de viviendas. Cuando traemos esto, necesitamos tenerlo como un marco de datos.

Necesitamos especificar que los datos y las columnas provienen del conjunto de datos de Scikit-learn y separar las variables de características y las variables de destino.

Cómo cargar conjuntos de datos de muestra en Python

Obtendremos esto como un marco de datos para que podamos operar y hacer diferentes cosas con él. Panda es un gran paquete para conocer como usuario de LuckyTemplates.

Cargar conjuntos de datos en Python desde conjuntos de datos de Vega

Otra opción que podemos aprender es el paquete de conjuntos de datos Vega. Este no está disponible en Anaconda pero podemos instalarlo a través de PIP. Esto es lo que escribiremos en la línea de comando para instalar los conjuntos de datos de Vega y para instalar o importar el módulo de datos local.

Cómo cargar conjuntos de datos de muestra en Python

Algunos de estos los puedes obtener, pero necesitarás una conexión web. Traeremos los que están instalados localmente importando datos locales y ejecutándolos.

Cómo cargar conjuntos de datos de muestra en Python

Como puede ver, hay bastantes conjuntos de datos. Algunos de estos son series de tiempo, mientras que otros tienen variables categóricas o continuas. Elijamos el conjunto de datos de automóviles en un marco de datos para que podamos ejecutar el método principal en él.

Cómo cargar conjuntos de datos de muestra en Python

Ahora, tenemos otro conjunto de datos de muestra que podemos usar y compartir.

Cómo cargar conjuntos de datos de muestra en Python

Cargar conjuntos de datos en Python desde Seaborn

Seaborn es otro paquete que está disponible en la distribución de Anaconda. De forma predeterminada, Seaborn es mejor conocido por la visualización de datos, pero también tiene algunos conjuntos de datos de muestra excelentes que puede usar. Esto es lo que escribiremos para obtener conjuntos de datos.

Cómo cargar conjuntos de datos de muestra en Python

Como puede ver, hay bastantes conjuntos de datos aquí. Continuaremos y usaremos el conjunto de datos de los pingüinos y obtendremos las primeras filas nuevamente.

Cómo cargar conjuntos de datos de muestra en Python

El resultado es otro conjunto de datos para practicar.

Cómo cargar conjuntos de datos de muestra en Python

La idea aquí no es solo tener los conjuntos de datos para practicar. Si vemos algunos valores que faltan, tenemos problemas para descartar conjuntos de datos, queremos completar la variable categórica o mostrar un ejemplo a otras personas sin proporcionar algunos datos confidenciales, puede usar uno de estos conjuntos de datos de acceso público que son muy, muy fáciles. para que la gente lo use y lo comparta. Esa es la idea de un ejemplo mínimamente reproducible.

LuckyTemplates con secuencias de comandos de Python para crear tablas de fechas
Python en LuckyTemplates: cómo instalar y configurar
Python I para usuarios de LuckyTemplates: nuevo curso en la plataforma educativa LuckyTemplates

Conclusión

En resumen, hay tres lugares para buscar conjuntos de datos de muestra. Scikit-learn es un paquete de aprendizaje automático. Es un poco más difícil de convertir, pero si está haciendo cosas relacionadas con el aprendizaje automático, este es el lugar para ir. Los conjuntos de datos de Vega también tienen una buena cantidad de conjuntos de datos, especialmente si usa el método para obtener conjuntos de datos de la web, pero es relativamente más difícil de cargar, por lo que solo tiene que usar PIP en lugar de tenerlo preinstalado con Anaconda. Seaborn es el punto óptimo porque carga el marco de datos y tiene mucha versatilidad cuando se trata de usar conjuntos de datos de muestra y ejemplos reproducibles.

Stack Overflow también tiene un tutorial sobre cómo escribir un buen ejemplo mínimamente reproducible o MRE, así que échale un vistazo si estás buscando publicar algo en línea.

Saber dónde obtener buenos conjuntos de datos y compartir un buen MRE es una habilidad muy importante que debe tener un analista.

Si disfrutó del contenido cubierto en este tutorial en particular, suscríbase al canal de televisión LuckyTemplates. Tenemos una gran cantidad de contenido que sale todo el tiempo de mí y una variedad de creadores de contenido, todos dedicados a mejorar la forma en que usa LuckyTemplates y Power Platform.


Qué es uno mismo en Python: ejemplos del mundo real

Qué es uno mismo en Python: ejemplos del mundo real

Qué es uno mismo en Python: ejemplos del mundo real

Cómo guardar y cargar un archivo RDS en R

Cómo guardar y cargar un archivo RDS en R

Aprenderá a guardar y cargar objetos desde un archivo .rds en R. Este blog también cubrirá cómo importar objetos desde R a LuckyTemplates.

Revisión de los primeros N días hábiles: una solución de lenguaje de codificación DAX

Revisión de los primeros N días hábiles: una solución de lenguaje de codificación DAX

En este tutorial del lenguaje de codificación DAX, aprenda a usar la función GENERAR y a cambiar dinámicamente el título de una medida.

Showcase Insights utilizando la técnica de elementos visuales dinámicos de subprocesos múltiples en LuckyTemplates

Showcase Insights utilizando la técnica de elementos visuales dinámicos de subprocesos múltiples en LuckyTemplates

Este tutorial cubrirá cómo usar la técnica de elementos visuales dinámicos de subprocesos múltiples para crear información a partir de visualizaciones de datos dinámicos en sus informes.

Introducción al contexto de filtro en LuckyTemplates

Introducción al contexto de filtro en LuckyTemplates

En este artículo, repasaré el contexto del filtro. El contexto del filtro es uno de los temas principales que cualquier usuario de LuckyTemplates debería conocer inicialmente.

Los mejores consejos para usar las aplicaciones en el servicio en línea de LuckyTemplates

Los mejores consejos para usar las aplicaciones en el servicio en línea de LuckyTemplates

Quiero mostrar cómo el servicio en línea de LuckyTemplates Apps puede ayudar a administrar diferentes informes e información generada a partir de varias fuentes.

Analice los cambios en el margen de beneficio a lo largo del tiempo: análisis con LuckyTemplates y DAX

Analice los cambios en el margen de beneficio a lo largo del tiempo: análisis con LuckyTemplates y DAX

Aprenda a calcular los cambios de su margen de beneficio utilizando técnicas como la bifurcación de medidas y la combinación de fórmulas DAX en LuckyTemplates.

Ideas de materialización para cachés de datos en DAX Studio

Ideas de materialización para cachés de datos en DAX Studio

Este tutorial analizará las ideas de materialización de cachés de datos y cómo afectan el rendimiento de DAX al proporcionar resultados.

Informes comerciales con LuckyTemplates

Informes comerciales con LuckyTemplates

Si todavía usa Excel hasta ahora, este es el mejor momento para comenzar a usar LuckyTemplates para sus necesidades de informes comerciales.

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber