El Centro de Visión por Computador (CVC) es una institución sin ánimo de lucro líder en investigación y desarrollo en su campo. Big Data Magazine se entrevista con la Doctora de este centro, Débora Gil, para hablar sobre el uso de algoritmos de la Inteligencia Artificial para el diagnóstico de enfermedades, el uso de los datos en la sanidad y la cirugía guiada por GPS.

BDM: ¿Qué aporta el ‘Big Data’ a la medicina?

Débora Gil: Disponer de datos masivos de casos ya resueltos podría ayudar al diagnóstico, a la predicción del mejor tratamiento según características específicas (poblacionales, fisiológicas, clínicas, etc) de cada paciente (es lo que se conoce como medicina personalizada) e incluso al soporte y guiado en la intervención. Ahora bien, hay que ser cauteloso con el método de Inteligencia Artificial(IA) escogido para evitar que los modelos predictivos estén sesgados según los casos más frecuentes. En otras palabras, el Big Data poco puede aportar (de momento) en caso de enfermedad rara o poco frecuente.

BDM: Es posible un tratamiento más personalizado a cada paciente de forma automatizada gracias al ‘big data’?

DG: Si se trata de un caso común, podría ser posible con los métodos actuales de análisis de datos masivos. No si se trata de una enfermedad rara, ya que los modelos se basan en probabilidades y no describen apropiadamente los casos poco frecuentes.

BDM: ¿En qué ámbitos se está trabajando con el ‘big data’?

DG: En muchas áreas de IA como identificación de objetos en fotos, sistemas de recomendación en internet, sistemas de seguridad. Sin embargo en el sector de biomedicina, su uso es incipiente. Los ámbitos donde se está empezando a utilizar es radiómica (predicción del resultado de un tratamiento, usualmente, de cáncer a partir de datos multimodales del paciente procedentes de escáneres, análisis y factores poblacionales), diagnóstico precoz de cáncer (screening o seguimiento.Ejemplo: mamografía a partir de los 40). Su uso no será generalizado hasta que los investigadores en IA no tengan acceso libre a los datos. En este sentido las leyes de protección de datos personales no contribuyen a que se tenga acceso a la gran cantidad de datos almacenados en hospitales y otros centros clínicos. El acceso está incluso restringido en caso de querer desarrollar algortimos automáticos de anonimización de datos que podrían ayudar a dar acceso libre para métodos de Big Data para medicina personalizada. En mi opinión se debería revisar la normativa o proporcionar un sistema centralizado a nivel nacional o europeo conde se garantice protección de datos dando acceso a la información relevante para el investigador.

BDM: ¿Cómo trabaja el ‘machine learning’?

DG: Esencialmente el machine learning aprende el rango de valores que caracterizan a un grupo determinado de individuos. El primer paso es extraer varias medidas de cada persona o escáner que se suponen que están relacionadas con lo que se quiere predecir/”adivinar”, por ejemplo el nivel de glucosa se sabe que está relacionado con tener diabetes. Cuando se desconoce que se tiene que medir se extraen medidas genéricas que describen el contenido de un escáner (intensidad, color, textura, etc).

El siguiente paso es “aprender” si alguna de esas medidas tomo un rango de valores entre los distintos grupos que se quiera identificar. En el ejemplo del azúcar, que rangos son normales y que rangos se corresponden con los distintos grados de diabetes. Usualmente, este aprendizaje se realiza mediante métodos probabilísticos y/o estadísticos que intentan encontrar unos rangos que minimicen el error cometido en una población de pacientes que han sido diagnosticados (etiquetados) previamente mediante otra prueba.

¿Cuáles son las posibles fuentes de error?

¿Qué pasa si mis pacientes de entrenamiento (los etiquetados que guían al método) han estado mal diagnosticados frecuentemente este diagnostico proviene de una decisión del médico? El método de machine learning cometerá el mismo error. Afortunadamente se suelen entrenar con varios observadores, pero si hay mucha discrepancia entre ellos el machine learning jamás aprenderá.

¿Qué pasa si hay un colectivo poco representado (una minoría)? Como los métodos son probabilísticos, difícilmente la podrán modelizar bien, porque no la tendrán en cuenta adecuadamente. Imaginemos una clase donde 100 alumnos sacan 10s y uno un 0. Cual es el promedio? 10. El 0 no tiene suficiente peso porque es solo un individuo de 100.

BDM: ¿Cirugía guiada por GPS?

DG: En mi grupo del Centro de Visión por Computador, conjuntamente con el Dr. Antoni Rosell del Hospital de Bellvitge y ahora del Germans Trias i Pujol de Barcelona hemos desarrollado un sistema de guiado a intervenciones broncoscopicas para realizar biopsias de lesiones pulmonares. La broncoscopia es una técnica endoscópica que consiste en introducir un tubo flexible en los bronquios con una cámara en su extremo que permite al médico llegar a distintos puntos del pulmón sin necesidad de cirugía. Al ser no invasiva tiene riesgo mínimo para el paciente.

El problema es como orientarse dentro del árbol bronquial. La visión que tiene el médico durante la intervención se limita al interior de los bronquios que se ven como túneles que se van bifurcando. Si bien los médicos especialistas tienen un mapa de los bronquios principales y previamente planifican visualmente la operación mediante un TAC, para bronquios muy distales (niveles profundos) es difícil orientarse y saber el camino a tomar en cada bifurcación.

Lo que hemos desarrollado es un sistema que proporciona instrucciones sencillas (toma el bronquio de arriba a la derecha, por ejemplo) a los médicos en cada bifurcación bronquial a partir de una ruta planificada previamente. Aunque las instrucciones de posición se calculan usando las imágenes de broncoscopia (algo deseable porque no alteras el protocolo de intervención) el sistema actúa como un GPS (o como el TomTom del coche).

BDM: ¿Influyen algoritmos de Inteligencia Artificial?

DG: En nuestro sistema GPS, usamos IA para localizar y contabilizar los bronquios que se ven en cada imagen. Sin embargo como la apariencia de todos los bronquios es muy similar en personas vivas, no hay problema alguno.

BDM: ¿Objetivos próximos?

DG: Los objetivos más inmediatos son desarrollar métodos de IA que puedan proporcionar modelos predictivos sin sesgo, de manera que las minorías estén bien descritas y que los resultados sean reproducibles con pocas muestras. Ya que en el fondo en el ámbito clínico no hay tanta “Big Data “ como nos gustaría para poder aplicar directamente los métodos existentes.

También estamos trabajando en la modelización de la variabilidad o incertidumbre que puedan tener los datos de entrada, puesto que esto afecta a la reproducibilidad de los métodos: funcionan muy bien con los pacientes que usaste para calcularlos pero con nuevas muestras su rendimiento cae en picado (es lo que se conoce como overfitting).

Todos estos nuevos métodos los estamos a punto de probar para el diagnóstico precoz de cáncer de pulmón, evaluación de la capacidad para conducir en casos de enfermedad neurodegenerativa y en signaturas radiómicas para predecir la respuesta a tratamientos de inmunoterapia.

Visto en Big Data Magazine by Mónica Gallego