Qué es uno mismo en Python: ejemplos del mundo real
Qué es uno mismo en Python: ejemplos del mundo real
En este blog, le mostraremos cómo realizar análisis de texto usando Python para identificar partes del discurso en datos de texto dentro de LuckyTemplates. Cubriremos los pasos para usar Python para el análisis de texto y brindaremos ejemplos y sugerencias para ayudarlo a comenzar con sus propios proyectos de análisis de texto. Puedes ver el video completo de este tutorial en la parte inferior de este blog.
Tabla de contenido
Datos fuente
En este tutorial, utilizaremos una nube de palabras lista para usar que contiene los textos que evaluaremos. Esto se muestra en el lado izquierdo de la imagen de abajo. En el lado derecho tenemos los filtros para identificar las diferentes partes de la oración, por ejemplo, adjetivos o verbos.
Podemos filtrar palabras que son adverbios, sustantivos, diferentes tipos de sustantivos o verbos y bases verbales. Esto es muy útil al crear una campaña de marketing y buscar palabras en las reseñas de sus clientes.
Comencemos abriendo nuestro editor de Power Query .
En nuestros datos de origen, tenemos columnas para los ID, la edad, el título y el texto de la reseña. Nos centraremos en la columna Revisar texto y la analizaremos para hacer nuestro análisis de texto. También hay otras categorías que pueden ser útiles en nuestro análisis.
Análisis de texto usando Python
Comencemos con los datos normales que trajimos. Lo primero que haremos es filtrar las filas porque tenemos muchos datos, y cuando hacemos análisis de texto, toma tiempo.
Para filtrar nuestros datos, tome las primeras 50 filas para que el análisis del texto sea un poco más rápido.
Una vez filtrado, vaya a Transform and Run Python script. Codificaremos todo aquí porque no hay mucho código.
Importación de los paquetes
Traigamos dos paquetes para nuestro análisis de texto de Python utilizando nuestro editor de secuencias de comandos de Python . Vamos a "importar pandas como pd" , nuestra biblioteca de manipulación de datos para guardarla como variable pd. Y luego " desde el blob de texto " , "importaremos TextBlob" con una mayúscula entre las palabras.
Siempre podemos documentar lo que estamos haciendo poniendo una cadena de documentos. Escribamos #traer las bibliotecas esenciales encima de nuestros paquetes.
Cambiar el nombre de la variable
En la primera línea de nuestro script, está esta línea proporcionada por LuckyTemplates que dice # 'dataset' contiene los datos de entrada para este script. Esta línea dice que nuestros datos se llaman conjunto de datos.
Así que cambiemos eso porque lleva demasiado tiempo escribir "conjunto de datos". Escriba #cambiar la variable del conjunto de datos y df = conjunto de datos en la siguiente línea.
Ahora es más corto escribir nuestra variable.
Haciendo el análisis de texto
Procedamos con nuestro análisis de texto. Recuerde que nuestros textos de revisión están en una columna con celdas individuales. Esta configuración no es realmente útil para nosotros porque queremos todos los textos juntos para poder realizar un análisis sobre ellos.
Sin embargo, no queremos que se unan sin un espacio, así que comencemos nuestro código con un espacio entre comillas dobles .
Luego agreguemos .join y aislemos nuestra columna de texto de revisión usando nuestra variable df , que contiene el conjunto de datos. Escriba 'Texto de revisión' colocado dentro de una notación de corchetes que aísla la columna.
Este código unirá todo, pero debemos guardarlo, así que creemos una variable llamada palabras.
Una vez que tengamos todas las palabras juntas, podemos usar nuestro blob de texto para comenzar a analizar las palabras.
Lo primero que debemos hacer es crear nuestras partes del discurso usando la variable blob que necesitamos para pasar palabras a un blob de texto. Vamos a usar ese blob de texto y pasar el texto, que son nuestras palabras . Esto se escribe como blob = TextBlob(words).
Ahora que tenemos ese blob, lo tomaremos y crearemos nuestra variable parts_of_speech usando blob.tags . Las etiquetas serán las abreviaturas de cada una de las partes de la oración.
Lo que vamos a hacer a continuación es guardar esto como un marco de datos usando Pandas que trajimos. Llamémoslo nuestros datos que es igual a pd.DataFrame y estamos trayendo nuestras partes del discurso .
Hagamos clic en Aceptar para ejecutar nuestro código. Después de ejecutar nuestro código, deberíamos obtener una tabla de nuestras variables. Tenemos el conjunto de datos o nuestros datos originales. También tenemos nuestros datos y el df .
Si no obtuvo los resultados esperados, le mostraremos las diferentes formas de evitar algunos errores que puede tener en el código.
Arreglando el código para el análisis de texto en Python
A veces, es posible que debamos ser muy explícitos al cambiar el formato del texto que nos preocupa.
Podemos hacerlo llamando a nuestra variable df , aislando 'Review Text ' colocado dentro de una notación de corchetes y luego cambiando el tipo a cadenas usando .astype('str') . Luego simplemente vuelva a guardar esto en la variable df .
Haga clic en Aceptar para volver a ejecutar el código. Deberíamos obtener los mismos resultados que obtuvimos anteriormente.
Ahora, queremos abrir nuestros datos , la última variable que trajimos para ver cómo se ve.
Deberíamos tener todas nuestras palabras separadas por partes del discurso. Todavía no hemos nombrado nuestras columnas, pero podemos hacerlo fácilmente.
En la versión anterior de este mismo análisis de texto, llamé a la primera columna Word y a la segunda Abreviatura .
En la consulta Partes del discurso , introducimos las palabras reales que corresponden a estas abreviaturas y las conectamos todas juntas.
Ahora, vamos a cerrar y aplicar .
Los pasos que hicimos nos permitieron filtrar a través de las diferentes partes del discurso que identificamos usando un código Python simple . Nos brinda esta imagen en LuckyTemplates donde podemos filtrar fácilmente nuestro texto según la categoría de partes del discurso en la que se encuentran.
Análisis de texto en Python | Introducción
Funciones definidas por el usuario de Python | Una
lista general de Python y For Loop en LuckyTemplates
Conclusión
Como analista de datos , es posible que se encuentre con la necesidad de extraer información y significado de grandes cantidades de datos de texto no estructurados. Lo que aprendió es un enfoque útil para comprender los datos de texto a través del análisis de texto.
Ahora, puede dividir fácilmente el texto en unidades más pequeñas, como palabras y oraciones, y luego analizar estas unidades en busca de patrones y relaciones. Puede lograr todos estos objetivos mediante el análisis de texto en Python y LuckyTemplates.
Mis mejores deseos,
Qué es uno mismo en Python: ejemplos del mundo real
Aprenderá a guardar y cargar objetos desde un archivo .rds en R. Este blog también cubrirá cómo importar objetos desde R a LuckyTemplates.
En este tutorial del lenguaje de codificación DAX, aprenda a usar la función GENERAR y a cambiar dinámicamente el título de una medida.
Este tutorial cubrirá cómo usar la técnica de elementos visuales dinámicos de subprocesos múltiples para crear información a partir de visualizaciones de datos dinámicos en sus informes.
En este artículo, repasaré el contexto del filtro. El contexto del filtro es uno de los temas principales que cualquier usuario de LuckyTemplates debería conocer inicialmente.
Quiero mostrar cómo el servicio en línea de LuckyTemplates Apps puede ayudar a administrar diferentes informes e información generada a partir de varias fuentes.
Aprenda a calcular los cambios de su margen de beneficio utilizando técnicas como la bifurcación de medidas y la combinación de fórmulas DAX en LuckyTemplates.
Este tutorial analizará las ideas de materialización de cachés de datos y cómo afectan el rendimiento de DAX al proporcionar resultados.
Si todavía usa Excel hasta ahora, este es el mejor momento para comenzar a usar LuckyTemplates para sus necesidades de informes comerciales.
¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber