Cómo cargar conjuntos de datos de muestra en Python

En esta publicación, veremos cómo cargar conjuntos de datos de muestra en Python. Puede que este no parezca el tema más glamoroso, pero en realidad es bastante importante. Idealmente, tendrá algunos conjuntos de datos en Python con los que podrá practicar cuando esté aprendiendo nuevos conceptos. Puedes ver el video completo de este tutorial en la parte inferior de este blog.

Si va a compartir su código , documentar lo que ha hecho o necesita ayuda , es realmente una buena idea usar un conjunto de datos generalmente disponible para construir algo que se llama un ejemplo mínimamente reproducible .

Vas a tener un código o secuencia de comandos preempaquetado que otra persona en Internet puede ejecutar y ayudarte. Si no produce estos ejemplos mínimamente reproducibles , se quema en lugares como Stack Overflow, lo que puede ser un poco impactante si no está familiarizado con él.

Cómo cargar conjuntos de datos de muestra en Python

Veamos algunas formas de crear estos ejemplos mínimamente reproducibles y obtener los conjuntos de datos. Hay algunos paquetes que puede usar para cargar un conjunto de datos prefabricado en Python y compartir ese código.

Veremos tres paquetes que son los más comunes. Encendamos un cuaderno Jupyter en blanco y comencemos.

Cómo cargar conjuntos de datos de muestra en Python

Tabla de contenido

Cargar conjuntos de datos en Python desde Sklearn
Cargar conjuntos de datos en Python desde conjuntos de datos de Vega
Cargar conjuntos de datos en Python desde Seaborn
Conclusión

Cargar conjuntos de datos en Python desde Sklearn

El primero que veremos se llama Sklearn . Si está utilizando Anaconda, no necesitará descargar esto. Si desea obtener más ayuda con Python, LuckyTemplates tiene un en el que puede inscribirse.

Asumiré que ya conoces cosas como los paquetes y partiré de ahí. Vamos a traer pandas y Sklearn, específicamente el submódulo del conjunto de datos.

Cómo cargar conjuntos de datos de muestra en Python

Vamos a traer algunos de estos conjuntos de datos. Scikit-learn , una biblioteca de datos de aprendizaje automático, los llama conjuntos de datos de juguete. Vamos a cargar Boston, que es un conjunto de datos de precios de viviendas. Cuando traemos esto, necesitamos tenerlo como un marco de datos.

Necesitamos especificar que los datos y las columnas provienen del conjunto de datos de Scikit-learn y separar las variables de características y las variables de destino.

Cómo cargar conjuntos de datos de muestra en Python

Obtendremos esto como un marco de datos para que podamos operar y hacer diferentes cosas con él. Panda es un gran paquete para conocer como usuario de LuckyTemplates.

Cargar conjuntos de datos en Python desde conjuntos de datos de Vega

Otra opción que podemos aprender es el paquete de conjuntos de datos Vega. Este no está disponible en Anaconda pero podemos instalarlo a través de PIP. Esto es lo que escribiremos en la línea de comando para instalar los conjuntos de datos de Vega y para instalar o importar el módulo de datos local.

Cómo cargar conjuntos de datos de muestra en Python

Algunos de estos los puedes obtener, pero necesitarás una conexión web. Traeremos los que están instalados localmente importando datos locales y ejecutándolos.

Cómo cargar conjuntos de datos de muestra en Python

Como puede ver, hay bastantes conjuntos de datos. Algunos de estos son series de tiempo, mientras que otros tienen variables categóricas o continuas. Elijamos el conjunto de datos de automóviles en un marco de datos para que podamos ejecutar el método principal en él.

Cómo cargar conjuntos de datos de muestra en Python

Ahora, tenemos otro conjunto de datos de muestra que podemos usar y compartir.

Cómo cargar conjuntos de datos de muestra en Python

Cargar conjuntos de datos en Python desde Seaborn

Seaborn es otro paquete que está disponible en la distribución de Anaconda. De forma predeterminada, Seaborn es mejor conocido por la visualización de datos, pero también tiene algunos conjuntos de datos de muestra excelentes que puede usar. Esto es lo que escribiremos para obtener conjuntos de datos.

Cómo cargar conjuntos de datos de muestra en Python

Como puede ver, hay bastantes conjuntos de datos aquí. Continuaremos y usaremos el conjunto de datos de los pingüinos y obtendremos las primeras filas nuevamente.

Cómo cargar conjuntos de datos de muestra en Python

El resultado es otro conjunto de datos para practicar.

Cómo cargar conjuntos de datos de muestra en Python

La idea aquí no es solo tener los conjuntos de datos para practicar. Si vemos algunos valores que faltan, tenemos problemas para descartar conjuntos de datos, queremos completar la variable categórica o mostrar un ejemplo a otras personas sin proporcionar algunos datos confidenciales, puede usar uno de estos conjuntos de datos de acceso público que son muy, muy fáciles. para que la gente lo use y lo comparta. Esa es la idea de un ejemplo mínimamente reproducible.

LuckyTemplates con secuencias de comandos de Python para crear tablas de fechas
Python en LuckyTemplates: cómo instalar y configurar
Python I para usuarios de LuckyTemplates: nuevo curso en la plataforma educativa LuckyTemplates

Conclusión

En resumen, hay tres lugares para buscar conjuntos de datos de muestra. Scikit-learn es un paquete de aprendizaje automático. Es un poco más difícil de convertir, pero si está haciendo cosas relacionadas con el aprendizaje automático, este es el lugar para ir. Los conjuntos de datos de Vega también tienen una buena cantidad de conjuntos de datos, especialmente si usa el método para obtener conjuntos de datos de la web, pero es relativamente más difícil de cargar, por lo que solo tiene que usar PIP en lugar de tenerlo preinstalado con Anaconda. Seaborn es el punto óptimo porque carga el marco de datos y tiene mucha versatilidad cuando se trata de usar conjuntos de datos de muestra y ejemplos reproducibles.

Stack Overflow también tiene un tutorial sobre cómo escribir un buen ejemplo mínimamente reproducible o MRE, así que échale un vistazo si estás buscando publicar algo en línea.

Saber dónde obtener buenos conjuntos de datos y compartir un buen MRE es una habilidad muy importante que debe tener un analista.

Si disfrutó del contenido cubierto en este tutorial en particular, suscríbase al canal de televisión LuckyTemplates. Tenemos una gran cantidad de contenido que sale todo el tiempo de mí y una variedad de creadores de contenido, todos dedicados a mejorar la forma en que usa LuckyTemplates y Power Platform.

Dejar un comentario

Time Intelligence en LuckyTemplates: cómo calcular el número de transacciones realizadas en los últimos N días

Descubra cómo calcular el total de transacciones realizadas en los últimos N días y obtenga información útil utilizando la inteligencia de tiempo en LuckyTemplates.

Cómo evaluar clústeres en sus datos mediante la técnica DAX en LuckyTemplates

En este tutorial, demuestro cómo mostrar clústeres en sus datos permite extraer información valiosa usando técnicas DAX avanzadas.

¿Cuánto personal tenemos actualmente? Lógica de fechas múltiples en LuckyTemplates usando DAX

En este tutorial, aprenderá a calcular la población actual del personal para las relaciones múltiples de la tabla de calendario mediante la función COUNTROWS y FILTER en LuckyTemplates.

Hacer una solicitud HTTP en Power Automate

Aprenda a crear una solicitud HTTP con Power Automate y cómo implementar soluciones efectivas para la automatización de tareas.

Programe un flujo de escritorio para que se ejecute en Power Automate

En este tutorial, aprenda cómo programar un flujo de escritorio en Power Automate para automatizar tareas en la web y su escritorio.

Power Automate Terminar Control de acción en flujos

Aprenda a usar correctamente el control Terminar acción de Power Automate que termina las acciones en un flujo si no se cumple alguna de las condiciones.

Power Query: combinar archivos de varias carpetas

Aprenda a combinar archivos de varias carpetas en su red, escritorio, OneDrive o SharePoint utilizando Power Query.

Tipos de flujo de Power Automate y cuándo usarlos

En este blog, analizamos las similitudes y diferencias entre los tipos de flujo de Power Automate y determinamos cuándo usar cada flujo. Encuentra la mejor opción de automatización.

Conectores de Power Automate: número, texto y fecha y hora

Familiarízate con algunos conectores Power Automate integrados que transforman cadenas en otro formato: número, texto y fecha y hora.

Tutorial del analizador VertiPaq: relaciones e integridad referencial

Este tutorial detallado sobre el analizador VertiPaq en DAX Studio le enseñará cómo usar la pestaña Relaciones para optimizar su DAX y resolver problemas de integridad referencial.