Visto en http://junkcharts.typepad.com/numbersruleyourworld/
El viernes, Facebook anunció que los hackers han obtenido acceso a datos personales de al menos 50 millones de usuarios. Los analistas relacionaron inmediatamente este incidente con el escándalo de Cambridge Analytica. ¿En qué se diferencia esta violación de datos del escándalo de Cambridge?
Cómo se violaron los datos
Uno debería tomar cualquier anuncio de cómo ocurrió una violación de datos con un poco de cuidado: es obvio que las compañías no publicarán nada que atraiga demandas; además, no está claro que haya una penalización por mentir sobre las razones reales de una violación de datos. No existe una auditoría externa, y las empresas controlan las narrativas y estadísticas que rodean estos eventos.
Basado en lo que nos dijo Facebook, el escándalo de Cambridge Analytica involucra a los socios de Facebook en el juego del sistema para obtener datos sobre los usuarios de Facebook. En el peor de los casos, es una violación de las normas de la comunidad, es decir, afirmar que se trata de una investigación académica. La empresa de investigación utiliza herramientas proporcionadas por Facebook para obtener los datos. (La empresa sostiene que reveló a los usuarios que estaba utilizando los datos para fines no relacionados con la investigación).
En el presente caso, Facebook afirma que una combinación de errores de codificación (es decir, características no deseadas) permitió a socios desconocidos acceder a toda la cuenta del usuario. Ni siquiera eso, sino cualquier cuenta en aplicaciones o sitios web de terceros en los que el usuario acceda para usar Facebook.
Cómo se descubrió la brecha
El escándalo actual demuestra el valor de las funciones de inteligencia empresarial/análisis de negocios dentro de las empresas. Nos dijeron que Facebook se dio cuenta de que ciertas métricas mostraban tendencias inusuales, y al investigarlo, descubrieron los errores.
Esto es totalmente creíble. Eso es lo que pasa cuando tienes buenos informes de datos. Son anomalías en la superficie. Por lo tanto, hay que investigarlos. Estas investigaciones son extremadamente complicadas porque todo lo que sabes es que las tendencias son diferentes. Hay miles de razones para el cambio. El trabajo del analista es establecer una relación causa-efecto. Especialmente desde que la comunidad de desarrollo adoptó prácticas “ágiles”, todo tipo de cambios automáticos están ocurriendo todo el tiempo sin advertencias. Para un sitio tan grande y complejo como Facebook, se necesita un gran esfuerzo para obtener una lista de todos los cambios del sitio dentro de una ventana de tiempo especifica!
Lo que complica más esta situación es que la vulnerabilidad se debe a múltiples errores, no sólo a uno. Me podía imaginar los embrollos y las falsas alarmas que se generaron durante la investigación.
La naturaleza de este problema no es diferente de la de un investigador que intenta perseguir un brote de e-coli.
La comunidad de la ciencia de datos es culpable de hablar mal de la función de inteligencia empresarial. Hay una percepción errónea de que el BI es para personas menos capacitadas que hacen cosas aburridas. La realidad es que hay más ciencia en BI que en la llamada ciencia de datos (definida aquí como data science ). Después de todo, la ciencia de datos consiste en averiguar por qué las cosas son como son. Los ingenieros, por el contrario, utilizan nuestra comprensión de la ciencia para cambiar las cosas.