En este blog, aprenderá a aplicar códigos o funciones repetibles a conjuntos de datos de Python para producir el mismo tipo de salida. Esto lo ayudará a ser más eficiente y esforzarse menos en obtener ciertos datos de diferentes conjuntos de datos. En este tutorial, vamos a utilizar un código existente que he creado previamente como ejemplo.
También aprenderá cómo hacer copias de conjuntos de datos para evitar dañar la versión original del conjunto de datos, importar bibliotecas y funciones usando códigos repetibles y crear una visualización en LuckyTemplates .
Para este blog, le recomiendo que obtenga el archivo CSV todo el tiempo y lo lleve a LuckyTemplates. También demostraré cómo podemos traer este archivo CSV y colocarlo directamente en LuckyTemplates, en caso de que tenga que hacerlo.
Tabla de contenido
Obtener un archivo CSV en LuckyTemplates
Para traer un archivo CSV a LuckyTemplates, lo primero que debe hacer es hacer clic en el menú " Obtener datos " en la cinta Inicio .
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-5953-0612140723069.jpg)
Después de hacer clic, aparecerá un menú desplegable y deberá seleccionar la opción " Texto/CSV " del menú.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-5089-0612140723145.jpg)
Una vez selecciones la opción “ Texto/CSV ”, se abrirá una ventana donde podremos seleccionar el archivo que queremos traer a LuckyTemplates. Para este ejemplo, usemos el archivo de conjunto de datos de IMDB .
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-6158-0612140723237.jpg)
Al abrir el archivo IMDB Dataset.csv , verá otra ventana que muestra los datos dentro de ese archivo. Dado que este archivo contiene una gran cantidad de datos, solo muestra una vista previa de algunos de ellos.
Lo primero que vamos a hacer en este archivo es transformarlo. Para hacer eso, simplemente haga clic en la opción " Transformar datos " en la parte inferior derecha de la ventana.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-2056-0612140723329.jpg)
Hacer una copia del conjunto de datos de Python
Antes de realizar cambios en este conjunto de datos, es importante hacer una copia del conjunto de datos original. Para hacer esto, simplemente haga clic derecho en el conjunto de datos.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-4744-0612140723395.jpg)
Luego, desde el menú, seleccione " Copiar ".
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-8263-0612140723736.jpg)
Por último, haga clic derecho en el panel Consultas y luego seleccione " Pegar " de las opciones.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-4161-0612140723831.jpg)
Después de aplicar estos pasos, debería tener una copia del conjunto de datos IMDB original en el panel Consultas .
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-6849-0612140723902.jpg)
Transformar un conjunto de datos mediante la ejecución de una secuencia de comandos de Python
Al transformar un archivo CSV, podrá dividir grandes cantidades de conjuntos de datos de Python en otros más pequeños. Podemos hacerlo aplicando algún script de Python en este archivo.
Pero primero, debemos asegurarnos de que los encabezados estén correctamente alineados. Haga clic en el menú Inicio , luego busque la opción " Usar la primera fila como encabezados " y haga clic en ella.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-8749-0612140724251.jpg)
Después de hacer clic en la opción " Usar la primera fila como encabezados ", los encabezados ahora cambiaron a los datos de las primeras filas anteriores, que son " revisión " y " sentimiento ".
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-5306-0612140727730.jpg)
A continuación, vaya al menú Transformar y haga clic en la opción " Ejecutar script de Python " en el grupo de opciones " Scripts ".
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-7206-0612140728082.jpg)
Después de eso, aparecerá una ventana " Ejecutar secuencia de comandos de Python ". En esta ventana, puede ejecutar cualquier secuencia de comandos de Python que desee para transformar el archivo actual que está utilizando. Para este ejemplo, voy a hacer que el conjunto de datos sea más pequeño ejecutando el siguiente código.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-5997-0612140728397.jpg)
Usé la función .iloc en el conjunto de datos para seleccionar las filas y columnas específicas del conjunto de datos de IMDB. Luego, en los parámetros, seleccioné las primeras 500 filas y todas las columnas en el conjunto de datos de IMDB. Lo almacené en una variable llamada " conjunto de datos ".
Después de ejecutar el script, deberíamos ver el "conjunto de datos", que es la variable que hemos creado en el paso anterior. Contiene los datos que hemos alterado usando el script de Python.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-6310-0612140728457.jpg)
Comprobación del conjunto de datos
Para abrir la tabla del conjunto de datos , simplemente haga clic en " Tabla " en la columna Valor .
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-5446-0612140728507.jpg)
Podemos ver que este conjunto de datos ahora tiene 500 filas .
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-1031-0612140728556.jpg)
Ahora que hemos dividido nuestro conjunto de datos de Python en 500 filas, lo siguiente que vamos a hacer es importar las bibliotecas que necesitamos. Lo haremos usando el mismo procedimiento que usamos para alterar el contenido de IMDB Dataset. Esto es para asegurarnos de que nuestro código pueda ser manejable en ciertos escenarios con menos alteraciones.
Importación de bibliotecas y funciones mediante códigos repetibles
Para importar las bibliotecas, regresemos a nuestro cuaderno y copiemos las bibliotecas que necesitamos. Tenga en cuenta que antes de este tutorial, ya había creado estas bibliotecas que estamos a punto de copiar. Solo estoy reutilizándolos para que tenga una idea clara sobre el uso de funciones como códigos repetibles.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-8447-0612140728633.jpg)
Una vez que haya copiado las bibliotecas, péguelas en la ventana " Ejecutar secuencia de comandos de Python " y no olvide incluir la línea " desde las colecciones importan el contador " al final de la secuencia de comandos.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-4000-0612140728990.jpg)
Luego, copiaremos la función de limpieza de datos de nuestro cuaderno y la agregaremos al script de Python en LuckyTemplates.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-3655-0612140729269.jpg)
Lo agregaremos debajo de las bibliotecas.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-7519-0612140729330.jpg)
También copiaremos el código para llamar a la función que acabamos de agregar.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-6310-0612140729657.jpg)
Luego péguelo en el script de Python en LuckyTemplates.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-6623-0612140729706.jpg)
Generación de tablas de datos
Ahora que hemos agregado el código para llamar a la función de limpieza de datos , debemos cambiar " df2 " por " conjunto de datos " y el " título " por " revisar ". Hicimos esto debido a los cambios que hicimos en el conjunto de datos.
Cambiamos "df2" a " conjunto de datos " porque almacenamos los datos con 500 filas en "conjunto de datos". Luego, para "título", lo actualizamos a "revisión" como resultado de cambiar los encabezados de las columnas.
Con estos códigos agregados, deberíamos poder obtener o generar 3 tablas que son datos1 para la frecuencia de palabras, datos2 para la frecuencia de bigramas y datos3 para la frecuencia de trigramas.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-5760-0612140729764.jpg)
También puede hacer otra copia de este conjunto de datos IMDB alterado (2) para abrir otra tabla más adelante.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-4864-0612140730137.jpg)
Ahora en IMDB Dataset (2) , abramos la tabla data1 .
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-449-0612140730182.jpg)
Una vez que se abre la tabla data1 , podemos ver la lista de palabras, así como la frecuencia.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-5933-0612140730229.jpg)
Como puede ver, podemos realizar ciertos procedimientos desde el conjunto de datos principal con el uso de códigos repetibles que tomamos del Jupyter Notebook. Con esos códigos repetibles, podemos transformar un conjunto de datos de Python y generar una tabla para la frecuencia de palabras, la frecuencia de bigramas y la frecuencia de trigramas sin tener que volver a escribir los códigos .
En IMDB Dataset (3) , abramos la tabla data2 para ver la frecuencia del bigrama.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-1518-0612140730276.jpg)
En la tabla de frecuencias de bigramas, puede ver el “ br ” incluido en la lista. Esto probablemente esté conectado a un código HTML. Simplemente podemos regresar y agregar algo más, pero no lo haremos en este tutorial.
Ahora que los datos se han cargado con la ayuda de los códigos repetibles, podemos comenzar a realizar visualizaciones al respecto en LuckyTemplates. Por ejemplo, un gráfico de barras para la frecuencia de cada palabra.
![Conjunto de datos de Python: aplicación de códigos repetibles Conjunto de datos de Python: aplicación de códigos repetibles](/resources8/uc1/image-8934-0612140730351.jpg)
Funciones definidas por el usuario de Python | Una
lista general de Python y bucles For en LuckyTemplates
con Python en LuckyTemplates | Conjunto de datos y función de cadena
Conclusión
En resumen, los códigos repetibles pueden ayudarlo a realizar ciertos procedimientos en un conjunto de datos con menos esfuerzo. Ha aprendido a utilizar códigos repetibles para transformar un conjunto de datos de Python en LuckyTemplates. También pudo usar la función .iloc para especificar las filas y columnas que se seleccionarán al modificar un conjunto de datos.
Además, creó copias de conjuntos de datos y creó una visualización mediante un gráfico de barras. Esta visualización se basa en los conjuntos de datos de Python que hemos creado y modificado con la ayuda de códigos repetibles.
Mis mejores deseos,
Gaellim