Table of Contents
ToggleProceso de análisis de datos: una guía paso a paso
Todo tipo de negocio, no importa cuán pequeño o grande sea, o relacionado con cualquier tipo de industria (Automóvil, Banca y Finanzas, Bienes Raíces, Cemento, TI, etc.), requiere Análisis de Datos en algún u otro momento de su ciclo de vida. Y especialmente las startups (son solo empresas que se ejecutan a pequeña escala, pero les gusta llamarse a sí mismas como startups por traer una nueva idea innovadora a su respectivo mercado) que piensan que no requieren análisis de datos ya que no tienen suficientes datos para que el proceso de análisis de datos obtenga resultados significativos.
Sé que algunos de ustedes ya habrían leído mi artículo anterior antes de llegar aquí, donde he mostrado los beneficios y la importancia del análisis de datos en detalle. No puedo enfatizar más en su utilidad y el poder final que obtendrás si eliges aprenderlo. Entonces, si aún no lo ha leído, siga adelante y léalo aquí.
Por mucho que el análisis de datos sea importante, es igualmente importante para cualquier empresa comprender el proceso detrás de él y cómo se hace realmente. Muchas empresas contratan analistas sin siquiera conocer su requisito real. Y si el requisito no está realmente relacionado con ningún tipo de trabajo bajo proceso de análisis de datos, entonces las empresas deben entender que deben dejar de incluir la palabra analista en su título de trabajo, especialmente cuando están publicando vacantes (solo porque hace que su título se vea elegante). He visto a muchas personas llamarse a sí mismas como analistas sin siquiera saber una palabra sobre el análisis de datos. Esto hace que la vida de los analistas reales sea muy difícil y, a veces, incluso pasan por situaciones embarazosas debido a la forma en que las personas lo valoran.
Así que, sin perder tiempo, entendamos el proceso paso a paso.
Paso 1: Enumerar las preguntas
¿Fue una sorpresa? Pero sí, es cierto. Este es el primer y más básico paso del proceso de análisis de datos. Incluso antes de comenzar a hacer algo con los datos, es muy esencial enumerar todas las preguntas para las que necesitamos respuestas de nuestro análisis. Esto es principalmente importante debido a la posibilidad de múltiples formas en que se pueden analizar los datos. Y al enumerar las preguntas correctas para su análisis, decidirá ese camino a través del cual llegará a sus respuestas.
Pregúntate «¿A qué problemas te enfrentas en tu negocio?» y «¿Para qué problemas crees que deberías encontrar soluciones a partir del análisis?».
Por ejemplo: «¿Cuál es el tiempo promedio que las personas pasan en su software?» y luego uno más detallado sería «¿Cuáles son las razones por las que las personas no pasan mucho tiempo en su software?».
No hay necesidad de poner demasiada presión sobre su cabeza. ¡Simplemente enumere al menos 5 preguntas que le vengan a la mente primero!
Paso 2: Recopilación de datos
Una vez que haya enumerado todas las preguntas, ahora es el momento de obtener los datos requeridos. Este es el segundo paso del proceso de análisis de datos. Para ello, primero tendrás que pensar en el tipo de datos que serían necesarios para responder a tus preguntas. Quiero decir que no querrás extraer ningún tipo de datos a los que tengas acceso. ¿Derecha?
Por ejemplo: Le gustaría extraer datos relacionados con la información del cliente para poder formar diferentes cohortes de usuarios en función de su país, edad, sexo, profesión, dispositivo de registro, software operativo, etc.
Otro tipo de datos podría ser sobre la actividad del usuario en su software que le gustaría conservar para fusionarlo más tarde con sus datos de información del cliente anterior para su posterior análisis.
Lo siguiente es encontrar las fuentes de los datos requeridos y descubrir las formas de extraerlos. Los datos pueden estar presentes en múltiples lugares como:
- Software de CRM que usted o su empresa está utilizando para almacenar los datos de sus clientes (como Hubspot, Zoho CRM, Salesforce, etc.)
- Software de seguimiento de User Engagement conectado a su plataforma (como Segment, Sherlockscore, Google Analytics, etc.)
- Bases de datos en la nube conectadas a su plataforma (como AWS, Oracle, Microsoft Azure, Google Cloud, etc.)
- Herramientas para comentarios y encuestas de usuarios (como Chameleon, Google Forms, Survey Monkey, etc.)
- Plataformas de redes sociales (como los perfiles de Facebook, Instagram o Youtube de su empresa o de su competidor )
- Otros sitios web como Kaggle (donde puede encontrar diferentes demostraciones, así como conjuntos de datos originales de diferentes compañías y relacionados con diferentes industrias), IMDB (que es un famoso sitio web de calificación y revisión de películas de Bollywood), etc. para el análisis de investigación de mercado
Y la lista continúa. Ahora, las formas populares de extraer información de dichos recursos son:
- API [Interfaz de programación de aplicaciones]: Si desea extraer datos de un sitio web (no importa si se trata de una plataforma de redes sociales, una plataforma de análisis en línea, una base de datos en la nube, un software / aplicación en línea o cualquier otro sitio web que use para la investigación), puede usar la API de ese sitio web (después de obtener permiso para acceder a él) para obtener la información requerida en su sistema utilizando una plataforma integrada con el lenguaje de programación como Python (por ejemplo. Cuaderno Jupyter)
- Web Scraping: Aunque el uso de API es el método más preferido, pero muchas plataformas en línea no tienen tales API. Y en algunos casos obtenemos acceso limitado a la API y, a su vez, datos limitados. Por lo tanto, una solución alternativa es raspar los datos del sitio web. Este es el proceso a través del cual puede obtener los datos de un sitio web en forma de un código HTML, que se utilizó para diseñar ese sitio web. Y luego, más tarde, puede extraer la información requerida escrita entre las líneas de código en un marco de datos adecuado. Una vez más, recomendaría usar el sistema integrado Python (como Jupyter Notebook).
- Descarga de archivos de datos: Muchas plataformas de almacenamiento de datos (como Sherlockscore, AWS, Kaggle, etc.) le brindan la opción de descargar los datos requeridos o solicitar una copia de seguridad de datos completa en un formato de archivo plano (como .csv, .tsv, etc.) que puede usar para un análisis posterior directamente utilizando una plataforma adecuada como Jupyter Notebook o incluso Microsoft Excel.
Paso 3: Evaluación de datos
Cuando esté listo con sus conjuntos de datos, ahora es el momento de evaluar los datos recopilados. Este proceso es algo así como tomar un producto para un control de calidad detallado. Así que básicamente en este proceso probaremos nuestro conjunto de datos y buscaremos problemas de calidad y orden para que no caigamos en obtener resultados incorrectos después de realizar el análisis. Así que entendamos más sobre estos temas:
- Problemas de calidad: Estos son los problemas con el contenido de los datos. En el análisis de datos, también llamamos a un conjunto de datos de baja calidad como un conjunto de datos sucio. Algunos ejemplos de ocurrencia de estos problemas son cuando se encuentran columnas con:
a. Valores faltantes
b. Datos inexactos (muy diferentes del estándar)
c. Tipos de datos erróneos (tipos de datos que no son estándar y no son adecuados para el análisis)
d. Valores
duplicados e. Datos
no válidos y podría haber otros problemas similares. El 90% de los problemas de calidad caen en las categorías mencionadas anteriormente. - Problemas de orden: Estos son los problemas con la estructura que cierra la forma fácil de hacer análisis. En el análisis de datos, un conjunto de datos desordenado también se conoce como conjunto de datos desordenado. Los requisitos para un conjunto de datos ordenado son:
a. Cada variable forma una columna
b. Cada observación forma una fila.
c. Cada tipo de unidad observacional forma una tabla.
En otras palabras, si los requisitos anteriores no coinciden en nuestro conjunto de datos, entonces contiene problemas de orden que deben rectificarse antes del análisis.
Para identificar los tipos de problemas mencionados anteriormente, debe conocer dos tipos de evaluación:
- Evaluación visual: Esta es una forma muy simple de tener una visión general rápida de los datos. Solo necesita desplazarse por su conjunto de datos (ya sea en MS Excel o Jupyter Notebook) y anotar cuidadosamente todos los problemas que ve con solo mirarlo.
- Evaluación programática: Aquí es donde debe ejecutar un programa en sus datos para que pueda ver las partes específicas e incluso los resúmenes de los datos. Esto le permitirá tener una visión más detallada de sus datos y descubrir los problemas ocultos debajo de ellos. Estos problemas no serán visibles desde el ojo agudo y pueden afectar el análisis en general. Y esta es también una de las razones por las que promuevo el aprendizaje de la Ciencia de Datos con Python y SQL que le permiten comprender los datos en profundidad.
Tenga en cuenta que uno debe documentar todos los problemas después de la evaluación para facilitar el acceso cuando los tomará uno por uno para su rectificación, que es el siguiente paso.
Paso 4: Limpieza de datos
Este es el cuarto paso del proceso de análisis de datos en el que limpiará los datos resolviendo todos los problemas documentados en el paso anterior. Pero antes de pasar a abordar nuestros problemas, entendamos los pasos importantes a tener en cuenta al resolverlos:
- Definir: Entonces, primero, debe convertir sus evaluaciones en tareas de limpieza definidas. Estas definiciones también servirán como una lista de instrucciones para que otros (o usted en el futuro) también puedan ver su trabajo y reproducirlo.
- Código: Luego, debe convertir esas definiciones en líneas de código y ejecutar ese código.
- Prueba: Por último, deberá probar su conjunto de datos, visualmente o con código, para asegurarse de que sus operaciones de limpieza funcionaron correctamente.
Si está utilizando un sistema integrado de Python como Jupyter Notebook, los pasos anteriores serían demasiado fáciles de lograr. Y ahora, incluso hay un orden lógico en el que estos problemas deben abordarse de acuerdo con su categoría para que no requiera la necesidad de repetir su código en ningún paso. Entonces, entendamos eso también:
- Datos faltantes: Cuando comience con el proceso de limpieza, siempre intente comenzar resolviendo primero el problema de los valores faltantes. Esto reducirá su carga de trabajo en una gran cantidad porque en este paso en sí, podrá darse cuenta de qué columnas son necesarias para su análisis. A continuación, puede decidir eliminar las columnas no esenciales.
- Problemas de orden: Siempre funciona mejor si resuelve estas cuestiones en el segundo lugar. Aquí realizará operaciones como combinar, dividir y renombrar columnas y otros conjuntos de datos que decidirán la estructura base de su conjunto de datos maestro para su posterior análisis.
- Otros problemas de calidad: Por último, ahora puede considerar la resolución de problemas de calidad distintos de los valores perdidos (que ya habría resuelto al principio). Aquí realizará operaciones como cambiar el tipo de datos de un campo, corregir o limpiar las observaciones con valores incorrectos, sustituir instancias con datos no válidos, eliminar filas innecesarias, etc.
Step 5: Data Analysis
Ahora, cuando haya terminado con el proceso de limpieza y su conjunto de datos maestro esté listo para el proceso posterior, vamos a seguir adelante con el paso más esperado, que es el análisis de datos. Aquí no sólo encontrará las respuestas a las preguntas que formuló en el primer paso, sino que también puede encontrar nuevas ideas interesantes durante el proceso. Y para empezar el proceso de análisis, tendrá que tener una comprensión adecuada de los cuatro tipos de análisis de datos:
1. Análisis descriptivo: Le ayudará a identificar las características o propiedades de sus datos tanto a nivel básico como avanzado, con lo que podrá entender el «qué» de la trayectoria de su producto/empresa hasta ahora.
Ejemplos de estadísticas descriptivas: Puede encontrar promedio, suma, media, modo, mediana, etc. para analizar un campo numérico en particular. También puede trazar tablas y gráficos para exploraciones visuales univariadas, bivariadas y multivariantes.
Y como intentará encontrar relaciones entre diferentes campos utilizando el Análisis Exploratorio de Datos (o EDA, que también es parte del Análisis Descriptivo), también abrirá la puerta a problemas más avanzados debido a resultados y tendencias inesperados o extraños. Esto resultará en la adición de nuevas preguntas a su lista de deseos para lo cual tendrá que pasar al siguiente tipo de análisis.
2. Análisis explicativo: Aquí, podrá comprender el «por qué» de algo que le pareció interesante o diferente en el paso anterior. Para esto, tendrá que diagnosticar el problema y profundizar más en los datos para encontrar las razones ocultas detrás de los problemas. Y es por eso que esto también se denomina Análisis de Diagnóstico en muchos lugares.
Ejemplos de análisis explicativo: Supongamos que está haciendo diferentes cohortes de usuarios en función del dispositivo que están utilizando para llegar a su sitio web, con el fin de comprender qué usuarios de dispositivos tienen la mayor tasa de rebote. Luego, por supuesto, puede profundizar para encontrar razones detalladas basadas en la actividad de los usuarios en sus respectivos dispositivos utilizando el análisis de embudo.
3. Análisis predictivo: Ahora, en este punto, serás como «Entonces, ¿qué sigue?», lo que básicamente significa que querrás dibujar algunas predicciones sobre el futuro de tu empresa / producto para comprender el siguiente paso o conjunto de pasos. Una comprensión profunda de este dominio, junto con los datos y los conocimientos que ya ha logrado mediante los dos análisis anteriores, no solo lo ayudará a predecir el crecimiento / valor de la empresa / producto en el futuro cercano, sino que también lo ayudará a tomar la decisión correcta.
Ejemplos de análisis predictivo: Para predecir el resultado futuro de cualquier negocio o producto, puede utilizar modelos de regresión lineal y logística, pruebas de hipótesis con muestreo bootstrap, pruebas A / B, análisis de series temporales y otros modelos de aprendizaje automático y métodos de pronóstico.
4. Análisis prescriptivo: Si todavía estás atascado en preguntarte «¿Qué sigue?», entonces definitivamente estás haciendo la pregunta correcta. Esto se debe a que el análisis anterior no le dijo lo que debería hacer a continuación. ¿Derecha? No hay duda de que le ayudó a predecir los resultados futuros si su empresa / producto continuaría funcionando de la misma manera. Pero, ¿qué pasa con los pasos para evitar esos hoyos? ¿Derecha? En este punto, buscará recomendaciones que sean confiables, para tomar su próxima decisión / paso con total confianza. Y, esto es exactamente con lo que el análisis prescriptivo lo ayudará.
Este tipo de análisis es, con mucho, la forma de análisis más demandada y la más avanzada. Aquí, va a utilizar todos los recursos, métodos y resultados de los 3 análisis anteriores en algoritmos de aprendizaje automático e IA (Inteligencia Artificial). Pero, ¿cómo funciona un modelo prescriptivo? En este tipo de análisis tenemos en cuenta todos los caminos posibles que una empresa/producto puede tomar y sus posibles resultados. Esto nos permitirá ver el mejor camino posible y su mejor resultado relativo comparando los resultados de cada decisión o el camino que seguimos.
Ejemplo de Analítica Prescriptiva: Debes haber visto cómo webs de comercio electrónico como Flipkart y Amazon nos recomiendan el mejor producto entre productos similares junto con recomendaciones basadas en nuestra compra anterior.
Una nota importante antes de seguir adelante:
El análisis de datos es un proceso iterativo, lo que significa que es posible que tengamos que repetir los pasos para ajustar nuestro análisis y, a su vez, mejorar o ampliar nuestros resultados. Es por eso que es muy necesario que anote su observación e inferencias en cada pequeño paso a medida que avanza para que, si se requiere iteración, pueda saber desde dónde debe comenzar a hacerlo.
Paso 6: Resumen y referencias
En este punto, habrías llevado a cabo todo el trabajo pesado y complejo. Habría anotado todas las observaciones e inferencias junto con su análisis. Ahora, es hora de que tome una visión general de su proceso y resultados y recopile todo en forma de resumen. También debe tener una sección separada de referencias donde debe mencionar todos los recursos que utilizó para su análisis.
Paso 7: Informes y documentación
Sé que después de pasar por un proceso tan riguroso hasta ahora, te sentirías agotado y agotado. Pero, ya sabes qué, ahora es el momento del verdadero espectáculo. Sí, ahora es el momento de que muestres tu informe a la gente. Estos podrían ser los miembros de su equipo preocupados, sus clientes comerciales o incluso toda la población.
Pero antes de pensar en compartirlo con alguien, debe asegurarse de haber documentado adecuadamente todo lo relacionado con su análisis en su sistema. La documentación no solo lo ayudará a compartir sus resultados de manera sistemática, sino que también lo ayudará a revisar su informe en caso de que lo necesite más adelante como referencia. Hay muchas maneras de documentar su informe. Se puede hacer en forma de diapositivas, blogs, documento word/pdf, cuaderno jupyter o en github, etc.
Y como se prometió, aquí está la prueba de todo lo que se ha mencionado anteriormente.
Prueba:
- Artículo de JSS: Lea este artículo de The Journal of Statistical Software (JSS) para obtener detalles sobre un conjunto de datos ordenado
- CareerFoundry Blog: Aunque he combinado mis conocimientos e información a través de muchos otros recursos, este es el más relevante.
- Blog de la Universidad Estatal de Michigan: Consulte este blog para ver cuatro tipos de análisis que mencioné. Pero, como dije, he combinado información de mi conocimiento y otros recursos. También consulte el blog detallado de CareerFoundry aquí para obtener más referencias.
- Además, encontrará todos los enlaces importantes a softwares y plataformas útiles dentro del artículo. Por favor, visite a ellos para obtener más información.
Yash Motwani
Un Community Manager convertido en Analista de Negocios, y ahora analista de datos profesional, desarrollador web, creador de contenido y fundador de LegitMines (legitmines.com)
Ayudamos a las empresas a elevar su valor con el aporte de especialistas en Analítica,
Diseño y Desarrollo de Soluciones, Control de Calidad y Consultoría Tecnologica.
Ayudamos a las empresas a elevar su valor con el aporte de especialistas en Analítica,
Diseño y Desarrollo de Soluciones, Control de Calidad y Consultoría Tecnologica.
Ayudamos a las empresas a elevar su valor con el aporte de especialistas en Analítica,
Diseño y Desarrollo de Soluciones, Control de Calidad y Consultoría Tecnologica.