Durante 5 años ayudamos a las empresas a alcanzar sus objetivos de mercado y de marca. Millennial es una empresa especializada en tecnología.

Galleria

Contactos

Enrique Palacios 360, Oficina 313, Miraflores - Lima

+51-975-113-510

Análisis Exploratorio de Datos

A los entusiastas de los datos les encanta EDA. Estoy seguro de que las personas que han pasado por muchos datos ahora tienen sus caminos o plantillas creadas, lo que les ahorra mucho tiempo y llega a la conclusión.

Pero para los aspirantes a datos que recién están comenzando EDA puede ser agotador a veces si no está reiterando preguntas en su mente una y otra vez para que no se pierda por dentro.

En este artículo, voy a enumerar algunas cosas que pueden ser útiles para guiar a través de EDA.

Principalmente hacer EDA tiene los siguientes objetivos:

  1. Maximice la información
  2. Descubrir la estructura subyacente
  3. Extraer variables importantes
  4. Detectar anomalías
  5. Probar los supuestos subyacentes

El objetivo puede ser diferente de lo que he enumerado, pero tenemos que tener un objetivo antes de empezar.

Modelo ML (machine learning) que clasifica el robot a partir de su secuencia.

Objetivo : Desarrollar un modelo de ML que prediga el robot a partir de su secuencia con una buena precisión

medium.com

 

Análisis de sentimientos y modelado de temas para tweets de clientes en twitter

Los siguientes son los problemas que estoy abordando en este post:

medium.com

 

DIAGRAMA DE FLUJO EDA

Análisis univariado

Esto significa mirar cada variable a la vez. En este análisis normalmente se calcula un resumen de cinco puntos.

Medida de las tendencias centrales: Media, mediana y modo

Medida de dispersión: Desviación estándar, Varianza

Medida de la cola (curtosis): Sesgado a la derecha, sesgado a la izquierda

Análisis bivariado

Esto significa observar las relaciones entre dos variables. Lo que hay que tener cuidado es que mientras analizamos siempre debemos tener en cuenta la media o la proporción en lugar de números de fila absolutos.

Tipos de variables:

Variable continua: Una variable continua es un tipo específico de variable cuantitativa utilizada en estadística para describir datos que son medibles de alguna manera. Si sus datos se ocupan de medir una altura, peso o tiempo, entonces tiene una variable continua.

Variables categóricas: Las variables categóricas contienen un número finito de categorías o grupos distintos. Es posible que los datos categóricos no tengan un orden lógico. Por ejemplo, los predictores categóricos incluyen el género, el tipo de material y el método de pago.

Visualización univariada

Ahora veamos un poco de código en acción para EDA paso a paso:

El siguiente fragmento de código nos dará el resumen de cinco puntos para todas las variables continuas:

1*nHcYk2fRw03UTlzveEf4yg
RESUMEN DE CINCO PUNTOS

Visualización de la media, la mediana y el modo

1*yoXc1T7jmmBU6vnDHVaBWw
MEDIDA DE LA TENDENCIA CENTRAL

Visualización BI-Variable

1*wnpwSOrJK O0wFPpDuMnZg
CORRELACIÓN ENTRE VARIABLES
1*r89p1 66SwnS49M4zByqDg
VISUALIZACIÓN DE LA CORRELACIÓN
1*TS1XkbpBlrzjiY7GnvSbag
JOINTPLOT
1*UAIvAXIWFzyFpksNK2IHFg
VIOLIN PLOT
1*Rs 9F0VCLob26rE9q2s7dw
BOXPLOT PARA COMPARAR MEDIAS
1*C1fA5dq ydVl9wBypO0ziQ
BOXPLOT

Por Analytics Vidhya News Bytes