En este artículo Mahima Jain, comparte la introducción del análisis exploratorio de datos. Esto cubre los puntos mencionados a continuación:
- Acerca de EDA
- Objetivos de la AED
- Parcelas involucradas en EDA
Veamos cuál es el proceso para llegar hasta EDA. Antes de esto, viene IDA (Análisis Inicial de Datos). Como su nombre indica, ida es el paso inicial para el análisis de datos. Nos dice cuál es la naturaleza de los datos, cómo y de dónde se han recopilado los datos.
Los pasos involucrados en el análisis de datos son:
- Evaluación y comprensión de los datos
- Limpieza de redundancias de datos
- Resumen
- Analizar la relación entre las variables
Los primeros 3 pasos en el análisis se incluyen en la AIF. Se centra más en verificar las solicitudes de suposición para el ajuste del modelo y las pruebas de hipótesis, el manejo de los valores faltantes y la realización de transformaciones de variables. El último paso pertenece a EDA.
Entonces, la pregunta principal es: ¿Qué es EDA?
EDA significa Análisis Exploratorio de Datos. Su significado es tan simple como su nombre, técnica de exploración de datos para comprender los diversos aspectos de los datos y para una mejor comprensión de los datos.
Al usar EDA, los datos deben estar limpios, no tener redundancia, no tener valores faltantes o valores nulos en el conjunto de datos, es decir, se debe realizar un análisis inicial de los datos.
Después de hacer todas las cosas anteriores, identifique las variables importantes en el conjunto de datos y elimine el ruido innecesario (datos o columnas innecesarios) del conjunto de datos para que no afecte la precisión del modelo que vamos a construir.
Y de esta manera, podemos entender la relación entre variables usando EDA. Podremos concluir utilizando información recopilada sobre los datos para realizar procesos más complicados en el preprocesamiento de datos.
El objetivo del análisis del conjunto de datos es:
- Después de completar IDA, el conjunto de datos estará libre de redundancias y valores nulos.
- Nos ayuda a descubrir puntos de datos defectuosos como valores atípicos en los datos y después de encontrarlos, podemos eliminarlos fácilmente para limpiar los datos.
- Al resumir los datos podemos entender el conjunto de datos, filas y columnas, etc. (para análisis no gráficos).
- Al trazar diferentes gráficos podemos visualizar los datos para una mejor comprensión (para el análisis gráfico).
- Ayuda a comprender la relación entre las variables para una perspectiva más amplia de los datos.
Hay muchas gráficas involucradas en EDA para la visualización y exploración de los datos. Aquí, en la parte de abajo, ‘df’ significa Data Frame que se encuentra en la biblioteca de pandas.
Análisis no gráfico: Para comprender la distribución de los datos sin trazar el gráfico. A continuación se presentan los tres comandos que entran bajo esto:
- df.info() – Imprima un resumen conciso del marco de datos.
- df.describe() – Nos da algunos valores en la salida como el recuento, la media, la desviación estándar, el valor mínimo, el 25%, el 50%, el 75% y el valor máximo, etc.
- df.isnull() – Nos da salida booleana (ya sea verdadera o falsa). Si falta algún valor, la salida será false, de lo contrario true.
Análisis gráfico: Para comprender los datos utilizando gráficos y gráficos, utilizamos el análisis gráfico. Hay algunas gráficas comunes en EDA para el análisis gráfico:
- Univariado
Numérico: df[column].plot(kind=«hist») – esto se utiliza para mostrar histograma de los datos
Categórico: df[column].plot(kind=«bar») – esto se utiliza para mostrar el gráfico de barras de los datos
- Multivariado
Numérico vs Numérico:
- sns.pairplot() – esto se utiliza para trazar una relación de pares entre los datos. Para cada columna, traza el gráfico dependiendo de los parámetros que pasamos en este método pairplot().
- sns.heatmap() – esta gráfica nos proporciona la matriz de color para visualizar el valor de la matriz.
Categórico vs Categórico:
- sns.countplot(hue = ..) – como su nombre indica, muestra los recuentos de observación utilizando barras. Esta trama es muy similar a la gráfica de bar o podemos decir que countplot es un grupo de muchas parcelas de bar.
Categórico vs Numérico:
- sns.boxplot() – este gráfico dibuja cuadros para mostrar la distribución de los datos. Son muchos los parámetros que podemos pasar en el método en función de nuestras necesidades.
- sns.pairplot(tono = ..) – esto es lo mismo que la trama de pares definida anteriormente.
Para referencia y mejor comprensión, se adjunta la imagen que tiene todos los gráficos mencionados anteriormente.