Home
» Power BI
»
Conjuntos de datos en Pandas con ProfileReport() | Python en LuckyTemplates
Conjuntos de datos en Pandas con ProfileReport() | Python en LuckyTemplates
Una de las preguntas más comunes que encontrará como analista de datos es cuál es la mejor manera de explorar un conjunto de datos determinado. Esta es una consideración importante principalmente si desea reunir todos los datos en un informe que sea fácil de interpretar para usted o su equipo. En este tutorial, demostraré cómo puede explorar conjuntos de datos de manera eficiente en Pandas usando ProfileReport(). Puedes ver el video completo de este tutorial en la parte inferior de este blog.
Cuando te dan un conjunto de datos, ¿qué haces? ¿Cómo explora el conjunto de datos? Principalmente, si desea ponerlo todo junto en un informe fácil de leer para usted, sus compañeros de trabajo, etc., tiene muchas cosas que considerar.
Primero, piensa en qué tipo de variables son porque eso influirá en cómo las analizas y cómo las tratas. Datos significa lo que se da. Entonces, lo que falta va a ser qué datos no tenemos. Otra cosa es visualizar esas relaciones. ¿Qué es lo que parecen? Queremos usar ese poder de visualización temprano y con frecuencia.
Estas son muchas preguntas complejas entrelazadas. Lo bueno es que está disponible esta función de informe de perfiles que nos dará esas respuestas. Entonces, veamos todo eso en Python.
Explore conjuntos de datos en Pandas usando la función ProfileReport()
Primero, vamos a cargar el conjunto de datos.
Luego, desde pandas_profiling , vamos a importar esta cosa llamada informe de perfil. Ahora, si obtiene un error aquí, probablemente necesite instalarlo. Estoy usando Anaconda. Te sugiero que lo uses también. Vamos a ejecutar esto y luego imprimirlo.
Asi que aqui esta. Tenemos una visión general . Esto nos da un desglose de los tipos de variables. Tenemos las estadísticas del conjunto de datos. Vemos el número de columnas de fila, y así sucesivamente. Lo bueno de este informe es que es como una ventanilla única y también se ve muy bien. Tiene una presentación muy atractiva.
Nos desplazamos hacia abajo aquí y tenemos las Variables . Obtenemos una visualización y podemos alternar más detalles sobre la variable. Tenemos banderas que señalan cosas que pueden ser un poco inusuales. También tenemos estas alertas y muchas otras características que nos proporcionarán más información. Y, esto es para cada variable.
A medida que continuamos desplazándonos hacia abajo, encontraremos Interacciones, donde se crean diagramas de dispersión para visualizar los datos.
Y luego, tenemos Correlaciones , que resumió la relación.
El siguiente es Missing Values , que son muy importantes. Como puede ver, aquí faltan algunos valores y queremos saber por qué. Estas visualizaciones aquí están destinadas a ayudarnos a hacer eso. Podemos hacer clic en cada elemento visual y analizar los datos.
Por último, tenemos la Muestra. Podríamos obtener esto de muchas maneras, pero todo lo que está haciendo es imprimir las primeras filas, lo cual es bueno saber.
Así es como explora conjuntos de datos en Pandas utilizando la función ProfileReport(). Hay muchas maneras de cortar y trocear los datos. Piense en todas las combinaciones de permutaciones de los datos. Esto no podrá hacer todo por ti, pero es un muy buen comienzo.
Cuando exploramos datos, es realmente un proceso iterativo. No hay una píldora mágica que se haga de una sola vez por mucho que querríamos una. Sin embargo, ProfilerReport() es realmente una gran herramienta. Obtenemos mucha información y solo una línea de código. Esta es una herramienta gratuita, así que espero que puedas usarla en tu propio trabajo. Háganos saber cómo lo hace.