Table of Contents

Artículo de Rosana Ferrero, Directora académica del Máster de data science en Máxima Formación

En la era del Big Data y Machine Learning

Una gran cantidad de datos es un activo para cualquier empresa o institución, pero solo si se procesan de manera eficiente. Se habla mucho de los algoritmos y los softwares estadísticos, pero la correcta interpretación de los resultados de un análisis puede ser aún más difícil. Incluso expertos en estadística suelen ser presa de ciertos errores comunes que hoy te contamos.

1. No realizar una investigación reproducible

No crear un informe replicable, reproducible y reutilizable es uno de los errores más frecuentes en Data Science. R y RMarkdown son las herramientas claves que te permitirán crear un flujo de trabajo reproducible.

Para ilustrar estas afirmaciones comparto con vosotros mi propia experiencia:

Sin R y RMarkdown, no planificaba adecuadamente mis análisis, no tenía en cuenta que los debería rehacer 10-15 veces antes de publicar. Por ejemplo, si encontraba un error en los datos o agregaba algunos casos extra, debía rehacer completamente el análisis, crear cada figura y editar cada tabla en Excel, copiar y pegar cada una de ellas en el manuscrito en Word o en la presentación de PowerPoint. Ahora, con R, puedo simplemente actualizarla nueva base de datos y compilar nuevamente el documento al formato que desee, con un solo clic y se genera de manera automática. Ahora tengo un flujo de trabajo reproducible.
Sin R y RMarkdown, me era imposible revisar un análisis estadístico tiempo después de haberlo realizado, por ejemplo, para realizar los cambios propuestos por un revisor. Tanto Excel como otros programas de cálculo utilizan el sistema de menú (clic para seleccionar cada acción) o de arrastrar y soltar, con lo cual no queda registro de los pasos realizados. Ahora con R, puedo volver a mis análisis cada vez que lo desee, cada paso está perfectamente detallado y comentado en un único documento que puedo repetir o modificar cuando lo desee.
Sin R y RMarkdown, me era imposible aplicar un nuevo método deanálisis a partir de la descripción de un artículo o estudio. Con R, ahora puedo compartir los archivos de análisis con mis colegas y todos tenemos acceso a los pasos específicos que se han realizado. Colaborarnuca fue tan fácil como ahora.

Recuerda:

«Cadaanálisis que hagas en un conjunto de datos tendrá que ser rehecho 10-15 veces antes de la publicación. Planifique en consecuencia« Trevor A. Branch.

Conoce a tu salvador: RMarkdown, minimiza los errores, ahorra horas de trabajo, y facilita la colaboración con tus compañeros.

2. No preparar tus datos adecuadamente para su análisis

La limpieza y preparación de la base de datos es un paso crucial en los proyectos de Data Science y Machine Learning.

Los alumnos suelen comenzar centrándose en la construcción de modelos, pero terminan dándose cuenta que en un proyecto de análisis de datos se pasa mucho más tiempo en la construcción de una base de datos adecuada.

Recuerda la siguiente frase: «Basura dentro, basura fuera«. Lo que significa que si utilizas datos erróneos lo que obtienes son modelos erróneos. Tu modelo será tan bueno como lo sean tus datos.

Evalúa el tamaño y la calidad de los datos. Los modelos simples en conjuntos de datos grandes generalmente superan a los modelos sofisticados en conjuntos de datos pequeños. Pero no sirve de nada tener muchos datos si son malos; la calidad también importa. Un conjunto de datos de calidad es uno que te permite tener éxito con el problema que quieres resolver. En otras palabras, los datos son buenos si logran realizar la tarea prevista, si son fiables. Esto incluye una buena limpieza, preparación y exploración de datos. En esta etapa debes analizar los valores ausentes, los casos duplicados, valores erróneos, valores extremos (outliers), muestras desequilibradas y tal vez crear nuevas características de la mano de la ingeniería de características.

Es como el caso de la Manzana podrida. Aunque tengas muchas datos, Unas pocas «manzanas (o datos) en mal estado» pueden arruinar el resto. Por ello, en un proyecto de Data Science o Machine Learning le dedicarás mucho tiempo a desechar ejemplos malos y acondicionar los que sirven. Es probable que dediques un 80% del tiempo a la preparación de los datos y un 20% a construir el modelo.

Realizado por Artículo de Rosana Ferrero, Directora académica del Máster de data science en Máxima Formación

Canales de Youtube para aprender sobre Data Science : Tableau , Power BI, Machine Learning

Power BI : 10 aplicaciones alternativas gratuitas para crear Dashboards

Gobierno de Datos : DAMA, DMBok 2 y Big Data