Table of Contents
ToggleAnálisis Exploratorio de Datos
A los entusiastas de los datos les encanta EDA. Estoy seguro de que las personas que han pasado por muchos datos ahora tienen sus caminos o plantillas creadas, lo que les ahorra mucho tiempo y llega a la conclusión.
Pero para los aspirantes a datos que recién están comenzando EDA puede ser agotador a veces si no está reiterando preguntas en su mente una y otra vez para que no se pierda por dentro.
En este artículo, voy a enumerar algunas cosas que pueden ser útiles para guiar a través de EDA.
Principalmente hacer EDA tiene los siguientes objetivos:
- Maximice la información
- Descubrir la estructura subyacente
- Extraer variables importantes
- Detectar anomalías
- Probar los supuestos subyacentes
El objetivo puede ser diferente de lo que he enumerado, pero tenemos que tener un objetivo antes de empezar.
Modelo ML (machine learning) que clasifica el robot a partir de su secuencia.
Objetivo : Desarrollar un modelo de ML que prediga el robot a partir de su secuencia con una buena precisión
medium.com
Análisis de sentimientos y modelado de temas para tweets de clientes en twitter
Los siguientes son los problemas que estoy abordando en este post:
medium.com
Análisis univariado
Esto significa mirar cada variable a la vez. En este análisis normalmente se calcula un resumen de cinco puntos.
Medida de las tendencias centrales: Media, mediana y modo
Medida de dispersión: Desviación estándar, Varianza
Medida de la cola (curtosis): Sesgado a la derecha, sesgado a la izquierda
Análisis bivariado
Esto significa observar las relaciones entre dos variables. Lo que hay que tener cuidado es que mientras analizamos siempre debemos tener en cuenta la media o la proporción en lugar de números de fila absolutos.
Tipos de variables:
Variable continua: Una variable continua es un tipo específico de variable cuantitativa utilizada en estadística para describir datos que son medibles de alguna manera. Si sus datos se ocupan de medir una altura, peso o tiempo, entonces tiene una variable continua.
Variables categóricas: Las variables categóricas contienen un número finito de categorías o grupos distintos. Es posible que los datos categóricos no tengan un orden lógico. Por ejemplo, los predictores categóricos incluyen el género, el tipo de material y el método de pago.
Visualización univariada
Ahora veamos un poco de código en acción para EDA paso a paso:
El siguiente fragmento de código nos dará el resumen de cinco puntos para todas las variables continuas:
Visualización de la media, la mediana y el modo
Visualización BI-Variable
Por Analytics Vidhya News Bytes