8
Minería de Procesos Descubriendo nuevas líneas de investigación para Profesionales de las TIC de Antonio Valle Salas 4 novembre de 2016 The Critical Need of Value

Caso de Éxito: Mineria de Procesos en investigación del cancer

Embed Size (px)

Citation preview

Page 1: Caso de Éxito: Mineria de Procesos en investigación del cancer

Minería de Procesos Descubriendo nuevas líneas de investigación para Profesionales de las TIC de Antonio Valle Salas

4 novembre de 2016

The Critical Need of Value

Page 2: Caso de Éxito: Mineria de Procesos en investigación del cancer

MINERÍA DE PROCESOS

Descubriendo nuevas líneas de investigación de las neoplasias mediante minería de procesos

RESUMEN

En este proyecto G2, junto con un equipo de investigación del Institut Català d’Oncologia, analizó mediante técnicas de Minería de Procesos la evolución de los pacientes que han sufrido múltiples episodios de cáncer.

Los resultados fueron sorprendentes: utilizar estas técnicas permitió a los investigadores tener una visión temporal de las neoplasias, visualizar claramente los patrones de aparición de segundos y sucesivos tumores y descubrir relaciones y comportamientos de las neoplasias que hasta el momento del estudio no estaban claros.

PROYECTO

La Minería de Procesos se puede utilizar para el análisis de cualquier tipo de información en la que se produzca un cambio en el tiempo.

El ICO lleva desde el año 2005 realizando una investigación detallada sobre la aparición y evolución de siete tipos distintos de tumores cancerígenos: Colo-Rectal, Pulmón, Mama, Leucemia, Linfoma, Mieloma y Sistema Nervioso Central. Durante este periodo se ha recopilado información detallada sobre la aparición de cada una de las neoplasias.

Los equipos de investigación buscan patrones y relaciones entre la aparición del primer, el segundo y los sucesivos tumores en un paciente que les permitan establecer nuevos protocolos de monitorización de los pacientes: una detección temprana aumenta en gran medida las posibilidades de su supervivencia y su calidad de vida.

Así, se plantearon al equipo de proyecto tres retos:

a) ¿Cuáles son los patrones fundamentales que sigue la aparición de neoplasias sucesivas? ¿Existen relaciones que no estén descritas y que puedan servir como punto de partida de nuevas líneas de investigación?

b) ¿Podemos representar un mapa que sirva de guía y de herramienta de comunicación para que los médicos de atención primaria estén alerta ante los síntomas o señales que se muestran en la aparición de cáncer sucesivo?

c) Paralelamente y de forma adicional, ¿podríamos generar algún material de comunicación que nos permita tener una visión temporal de la evolución de los pacientes?

G2, Gobierno y Gestión de TI 1

Page 3: Caso de Éxito: Mineria de Procesos en investigación del cancer

Descubriendo nuevas líneas de investigaciónG2 propuso utilizar la solución Disco, del fabricante holandés Fluxicon, para llevar a cabo los análisis de los datos mediante técnicas de minería de procesos, por la gran agilidad y usabilidad en los análisis que proporciona Disco.

DATOS

Para realizar este análisis se extrajeron de los sistemas de información del ICO los datos sobre la aparición de tumores en forma de event log, en el que cada evento representa un tumor y cada caso un paciente; la información sobre tumores venía enriquecida con aspectos clínicos y demográficos tanto del paciente (sexo, edad, etc.) como del tumor (clasificación, aspectos clínicos, etc.)

La extracción de los datos se realizó utilizando las herramientas y el datawarehouse que ya existían en la organización: un sistema de almacenamiento y ETL basado en Kettle ya integrado con la información de los sistemas operacionales y que es utilizado en las tareas de investigación y reporting. La existencia previa de esta información y de este sistema ETL facilitó enormemente la tarea, ya que no hubo que realizar esfuerzos especialmente importantes en la extracción de datos.

El event log a analizar se componía de 3800 casos y 4782 eventos y unas primeras comprobaciones permitieron descubrir que el grado de calidad de los datos era excelente: apenas un 0,21% de los casos contenían errores, los cuales fueron detectados rápidamente con Disco. Después de verificar la información en los sistemas operacionales, el equipo encontró que los errores se correspondían a casos duplicados en los sistemas de origen y a errores de apreciación en la historia clínica, errores que fueron corregidos en el origen antes de repetir la exportación de datos a Disco.

El siguiente reto con el que nos encontramos fue con la necesidad de agrupar los tumores por categorías: la primera extracción de datos contenía gran cantidad de actividades (462) debido al nivel de detalle con el que se clasifican los tumores en la historia clínica. Con ayuda de la oncóloga del equipo se asignó a cada una de estas actividades una categoría que nos permitía agrupar los tumores objeto del estudio en los 7 grandes grupos mencionados en la introducción, reduciendo el número de actividades a 19.

G2, Gobierno y Gestión de TI2

Fig. 1 Secuencia de neoplasis que muestra problemas de calidad de los datos: ¿5 pacientes empiezan con el “segundo” tumor?

Page 4: Caso de Éxito: Mineria de Procesos en investigación del cancer

MINERÍA DE PROCESOS Así, por ejemplo, se asignó la categoría “Mama” a los tumores clasificados como “Cuadrante inferior interno de la mama” o “Cuadrante superior interno de la mama” o “Prolongación Axilar de la mama”.

Una vez que ya disponíamos del dataset correcto se aplicó un filtro para descartar todos aquellos casos que habían padecido un único tumor, ya que el estudio se debía centrar en los casos múltiples dejando la muestra reducida a 792 casos (pacientes), 1776 eventos (tumores) y 19 actividades (tipologías de tumor).

RESULTADOS

El proceso de análisis fue muy intenso, con todo el equipo presente durante los dos días que dedicamos a explorar la información proporcionada. Rápidamente las técnicas de Minería de Procesos se ganaron la confianza y el respeto de los miembros del ICO. La primera representación fue, como cabía esperar, un diagrama de espaguetis por lo que, liderados por la oncóloga del equipo, pasamos a realizar varias representaciones de las diferentes casuísticas según nos lo iba pidiendo.

La primera comprobación fue un diagrama de supervivencia (figura 2). En él se puede observar claramente cómo el 69,45% de l o s p a c i e n t e s a n a l i z a d o s sobrevive al primer tumor; un 60,6% sobrevive al segundo y un 63,4% lo hace al tercero: una información que el equipo de investigación ya conocía, pero q u e a l s e r r e p r e s e n t a d a gráficamente ganaba un gran peso como herramienta de comunicación médica.

Por otra parte, explorar un terreno conocido sirvió para afianzar la confianza en las nuevas técnicas empleadas.

Para explorar diferentes maneras de representar los patrones que presentan los datos utilizamos una representación de mapa filtrado (mostrando los casos que se iniciaban con cualquiera de los 7 tipos de neoplasia objeto de la investigación), la representación de las variantes que proporciona Disco y el visualizador “Explore Event Log (trace variants)”.

G2, Gobierno y Gestión de TI 3

Fig. 2 Diagrama de secuencia y supervivencia

Page 5: Caso de Éxito: Mineria de Procesos en investigación del cancer

Descubriendo nuevas líneas de investigación

De esta manera, la representación de mapa de Disco cubría todos los objetivos del estudio. Por ejemplo, la figura. 3 muestra cómo los pacientes que han sufrido un primer episodio de cáncer de mama y que posteriormente presentan un segundo tumor o sucesivo presentan mayor probabilidad de desarrollar un segundo tumor de mama que otros tipos de tumores.

Por otra parte, al analizar las variantes mediante el visualizador de ProM (figura 4), se descubrió la fuerte relación que había entre las tipologías Pulmón y CCR (Colo-Rectal), haciendo aflorar un patrón que hasta el momento había permanecido oculto y que servirá para abrir líneas de investigación en el futuro.

G2, Gobierno y Gestión de TI4

Fig. 3 Patrones en el cáncer de mama

Fig. 4 Patrones / Variantes en ProM

Page 6: Caso de Éxito: Mineria de Procesos en investigación del cancer

MINERÍA DE PROCESOS Una vez detectada esta relación, se filtraron los casos en Disco para obtener una visión más ajustada y se pudo observar que aproximadamente un 9% de los casos presentan ambos tipos de neoplasia, tal y como podemos ver en la figura 5.

BENEFICIOS

Este proyecto ha generado beneficios importantes en diferentes perspectivas:

En el equipo de investigación del ICO: El equipo de investigación del ICO ha podido comprobar en primera instancia las ventajas que proporciona la minería de procesos para aportar nuevas perspectivas del estudio de la información. Los nuevos métodos de estudio y representación de la información abren puertas a nuevas ideas y avances en la investigación.

En la manera de presentar la información: En general los estudios que se han venido realizando en el ámbito de la Oncología en Catalunya están fuertemente ligados a métodos estadísticos o de diagnóstico por la imagen. La nueva forma de visualizar el flujo de los tumores ha sido relevante, y usar gráficas de variantes en ProM o animaciones de Disco ha sido determinante para ganar la atención del resto de equipos de investigación.

En la práctica de minería de procesos: Este ha sido el primer caso de aplicación de la minería de procesos a la investigación de la evolución de tumores. Había bastantes referencias del uso de la minería de procesos en el sector salud, pero siempre orientado al flujo o a la gestión hospitalaria y no a la investigación de enfermedades.

En la presentación de resultados a la sociedad: Durante los días 21 y 22 de Abril de 2016 se llevó a cabo el simposio ICO 10mes10 en el que el ICO presentaba los resultados de sus 20 años de actividad a la sociedad.

G2, Gobierno y Gestión de TI 5

Fig. 5 Relación entre Pulmón y CCP.

Page 7: Caso de Éxito: Mineria de Procesos en investigación del cancer

Descubriendo nuevas líneas de investigaciónEntre los más de 500 asistentes al simposio se encontraban los médicos e investigadores más relevantes de Catalunya. La única conferencia que se repitió los dos días del congreso fue la dictada por el Dr. José Ramón Germà presentando los resultados de los análisis de supervivencia en los siete tumores analizados (demostrando que la supervivencia en Catalunya es la más alta del mundo); durante esa conferencia, el Dr. Germà proyectó un video mostrando las animaciones realizadas con Disco y mencionando específicamente la minería de procesos como un nuevo método de investigación.

EQUIPO

Este proyecto fue desarrollado íntegramente en las instalaciones del ICO por un equipo multidisciplinar compuesto por: un especialista en las estructuras de datos y sistemas de información del ICO, una doctora del ICO especializada en oncología y un experto en análisis de datos y Minería de Procesos de G2.

G2: Antonio Valle Salas ICO: Pau López García ICO: Lourdes Pétriz González

G2, Gobierno y Gestión de TI6

Acerca del ICO

El Institut Català d’Oncologia (ICO) es un cen t ro púb l i co que t r aba ja exclusivamente en el campo del cáncer. Su aproximación a la enfermedad es complete, combinando dentro de la misma organización prevención, atención hospitalaria, investigación y formación especializada. El ICO se creó en 1995 por el Departament de Salut de la Generalitat de Catalunya y es a día de hoy el centro de referencia en oncología para más del 40% de la población de Catalunya.

Acerca de G2

G2 es una consultora especialista en el gobierno y la gestión de servicios y precios orientada a la mejora continua de los mismos y a aumentar el valor que éstos aportan al las organizaciones.

Fundad en 1998, G2 está reconocida como líder en la aplicación de minería de procesos en mil tiples ámbitos (TIC, sanidad, administración…) así como en el gobierno de las TIC y la gestión del cambio organizativo en clientes de todos los sectores de actividad.

Page 8: Caso de Éxito: Mineria de Procesos en investigación del cancer

Avd. Ernest Lluch, 32 - 08302 Mataró - Barcelona

Gobierno y Gestión de TI

http://www.gedos.es