Table of Contents
ToggleUna gran cantidad de datos es un activo para cualquier empresa o institución, pero solo si se procesan de manera eficiente. Se habla mucho de los algoritmos y los softwares estadísticos, pero la correcta interpretación de los resultados de un análisis puede ser aún más difícil. Incluso expertos en estadística suelen ser presa de ciertos errores comunes que hoy te contamos.
No crear un informe replicable, reproducible y reutilizable es uno de los errores más frecuentes en Data Science. R y RMarkdown son las herramientas claves que te permitirán crear un flujo de trabajo reproducible.
Para ilustrar estas afirmaciones comparto con vosotros mi propia experiencia:
Recuerda:
«Cadaanálisis que hagas en un conjunto de datos tendrá que ser rehecho 10-15 veces antes de la publicación. Planifique en consecuencia« Trevor A. Branch.
Conoce a tu salvador: RMarkdown, minimiza los errores, ahorra horas de trabajo, y facilita la colaboración con tus compañeros.
La limpieza y preparación de la base de datos es un paso crucial en los proyectos de Data Science y Machine Learning.
Los alumnos suelen comenzar centrándose en la construcción de modelos, pero terminan dándose cuenta que en un proyecto de análisis de datos se pasa mucho más tiempo en la construcción de una base de datos adecuada.
Recuerda la siguiente frase: «Basura dentro, basura fuera«. Lo que significa que si utilizas datos erróneos lo que obtienes son modelos erróneos. Tu modelo será tan bueno como lo sean tus datos.
Evalúa el tamaño y la calidad de los datos. Los modelos simples en conjuntos de datos grandes generalmente superan a los modelos sofisticados en conjuntos de datos pequeños. Pero no sirve de nada tener muchos datos si son malos; la calidad también importa. Un conjunto de datos de calidad es uno que te permite tener éxito con el problema que quieres resolver. En otras palabras, los datos son buenos si logran realizar la tarea prevista, si son fiables. Esto incluye una buena limpieza, preparación y exploración de datos. En esta etapa debes analizar los valores ausentes, los casos duplicados, valores erróneos, valores extremos (outliers), muestras desequilibradas y tal vez crear nuevas características de la mano de la ingeniería de características.
Es como el caso de la Manzana podrida. Aunque tengas muchas datos, Unas pocas «manzanas (o datos) en mal estado» pueden arruinar el resto. Por ello, en un proyecto de Data Science o Machine Learning le dedicarás mucho tiempo a desechar ejemplos malos y acondicionar los que sirven. Es probable que dediques un 80% del tiempo a la preparación de los datos y un 20% a construir el modelo.
Realizado por Artículo de Rosana Ferrero, Directora académica del Máster de data science en Máxima Formación
Canales de Youtube para aprender sobre Data Science : Tableau , Power BI, Machine Learning
Power BI : 10 aplicaciones alternativas gratuitas para crear Dashboards