11

Click here to load reader

Aplicacion de La Mineria de Datos

Embed Size (px)

Citation preview

Page 1: Aplicacion de La Mineria de Datos

pneu

ma

Especial

156

APLICACIÓN DE LA MINERÍA DE DATOSAL ESTUDIO DE LAS ALTERACIONESRESPIRATORIAS DURANTE EL SUEÑO Carlos Zamarrón Sanz, Vanesa García Paz, Uxío Calvo Álvarez, Fernanda Pichel Guerrero, José Ramón RodríguezSuárezServicio de Neumología. Hospital Clínico Universitario de Santiago de Compostela

En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivode la ciencia positiva. En él es fundamental el paso inductivo inicial: a partir de un conjunto de observaciones yde unos conocimientos previos, la intuición del investigador le conduce a formular la hipótesis. Esta “intuición”resulta inoperante cuando no se trata de observaciones aisladas y casuales, sino de millones de datos almacena-dos en soporte informático. Las técnicas de análisis estadístico, desarrolladas hace tiempo, permiten obtenerciertas informaciones útiles, pero no inducir relaciones cualitativas generales, o leyes, previamente descono-cidas; para esto se requieren otras técnicas de análisis inteligente que están enfocadas a la inducción deconocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo deinterés: la Minería de Datos (data mining), que incluye los nuevos métodos matemáticos y técnicas softwarepara análisis inteligente de datos. Por tanto, la Minería de Datos surge a partir de sistemas de aprendizaje inducti-vo en ordenadores, al ser aplicados a bases de datos, y su importancia crece de tal forma que incluso es posibleque, en el futuro, los sistemas de aprendizaje se usen de forma masiva como herramientas para analizar datosa gran escala.

Se denomina descubrimiento de conocimiento en bases de datos (KDD) al proceso global de búsqueda denuevo conocimiento a partir de los datos de una base de datos. Este proceso incluye no sólo el análisis inteligen-te de los datos con técnicas de Minería de Datos, sino también los pasos previos, como el filtrado y preprocesa-do de los datos, y los posteriores, como la interpretación y validación del conocimiento extraído. El KDD es unproceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las fases puede hacer volver a pasosanteriores y porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad.

Resumen

Correspondencia:Carlos Zamarrón SanzServicio de Neumología. Hospital Clínico Universitarioc/Travesía de la Choupana s/n. 15706 Santiago de CompostelaE-mail: [email protected]

Pneuma 2006; 6: 156 - 166

Page 2: Aplicacion de La Mineria de Datos

Es interactivo porque el usuario, o más generalmente unexperto en el dominio del problema, debe ayudar en lapreparación de los datos, validación del conocimientoextraído, etc.

1. Minería de Datos

La Minería de Datos se caracteriza por el análisis degrandes cantidades de datos con el fin de descubrirrelaciones insospechadas y resumir la información me-diante nuevas técnicas de forma que pueda ser interpre-table y útil a sus usuarios1-3. Las relaciones y resúme-nes obtenidos mediante técnicas de Minería de Datosson conocidos a menudo como modelos o patrones.Ejemplos de dichos resúmenes pueden ser reglas, clus-ters, grafos, estructuras en árbol y patrones recurrentesen series temporales; proporcionando la InteligenciaArtificial un buen número de técnicas de lo que se cono-ce como Computación Flexible para la realización de unprocesamiento inteligente de los datos.

La Minería de Datos es un término relativamente moder-no que integra numerosas técnicas de análisis de datosy extracción de modelos. La Minería de Datos tienecomo objetivo analizar los datos para extraer conoci-miento. Aunque se basa en varias disciplinas, algunasde ellas más tradicionales (como la estadística), sedistingue de ellas en la orientación más hacia el fin quehacia el medio. Y el fin lo merece: ser capaces de ex-traer patrones, de describir tendencias y regularidades,de predecir comportamientos y, en general, de sacarpartido a la información computerizada que nos rodeahoy en día, generalmente heterogénea y en grandescantidades, permite a los individuos y a las organizacio-nes comprender y modelar de una manera más eficien-te y precisa el contexto en el que deben actuar y tomardecisiones. En la práctica, los modelos pueden ser dedos tipos: predictivos y descriptivos. Los modelospredictivos pretenden estimar valores futuros o desco-nocidos de variables de interés, que denominamosvariables objetivo o dependientes, usando otrasvariables o campos de la base de datos, a las que nosreferiremos como variables independientes o predicti-vas. Los modelos descriptivos, en cambio, identificanpatrones que explican o resumen los datos, es decir,sirven para explorar las propiedades de los datosexaminados, no para predecir nuevos datos. Algunastareas de Minería de Datos que producen modelospredictivos son la clasificación y la regresión, y las quedan lugar a modelos descriptivos son el agrupamiento,las reglas de asociación y el análisis correlacional.

En las aplicaciones médicas, donde no se puede obviarla importancia de la componente temporal, las técnicasde Minería de Datos han adquirido gran relevancia4. Lasaplicaciones de estas técnicas van desde la visualiza-

ción inteligente de grandes cantidades de datos médi-cos, hasta el control de calidad en centros hospitalarios.

En este proceso de Minería de Datos es importante eluso de modelos de representación y razonamiento tem-poral, tanto por la naturaleza intrínsecamente evolutivadel seguimiento de pacientes, como por la unidireccio-nalidad temporal de las relaciones causa/efecto. LaMinería de Datos es un campo emergente que estáadquiriendo cada vez más importancia. Desde el puntode vista médico, sirve para establecer índices pronósti-cos y diagnósticos que permitan obtener informaciónútil para predecir incidencias y ajustar los protocolos deactuación clínica.

a) Extracción de patrones y aprendizajeEl aprendizaje puede tener distintas definiciones; comola mejora del comportamiento a partir de la experiencia;capacidad de predecir observaciones futuras con plausi-bilidad o explicar observaciones pasadas; identificaciónde patrones, de regularidades, existentes en la eviden-cia o como compresión de información. Estas cuatrovisiones se conjugan perfectamente de la siguientemanera: el aprendizaje nos permite identificar regulari-dades en un conjunto de observaciones. Estos patronespueden ser utilizados para predecir observaciones futu-ras o explicar observaciones pasadas.

La extracción de conocimiento a partir de datos tienecomo objetivo descubrir patrones que, entre otras co-sas, deben ser válidos, novedosos, interesantes y, enúltima instancia, comprensibles. Los seres humanostenemos una capacidad innata de ver patrones anuestro alrededor. Las técnicas de Minería de Datos hanquerido emular, a estas capacidades de aprendizaje.

b) Los patrones son hipótesisSea como sea la presentación del problema, una de lascaracterísticas presente en cualquier tipo de aprendizajey en cualquier tipo de técnica de Minería de Datos es sucarácter hipotético, es decir, lo aprendido puede, encualquier momento, ser refutado por evidencia futura.En muchos casos, los modelos no aspiran a ser mode-los perfectos, sino modelos aproximados. En cualquiercaso, al estar trabajando con hipótesis, es necesariorealizar una evaluación de los patrones obtenidos, con elobjetivo de estimar su validez y poder compararlos conotros. Por tanto, la Minería de Datos, mas que verificarpatrones hipotéticos, usa los datos para encontrar estospatrones. Por lo tanto, es un proceso inductivo.

2. Almacenes de datos

El concepto de almacenes de datos nace hace más deuna década ligado al sistema de información ejecutivode una organización. Los almacenes de datos no solo se

pneuma

157

Carlos Zamarrón Sanz et al. Aplicación de la minería de datos al estudio de las alteraciones respiratorias ...

Page 3: Aplicacion de La Mineria de Datos

aplican en ámbitos médicos. Al contrario, en realidad,los almacenes de datos pueden utilizarse de muy dife-rentes maneras, y pueden agilizar muchos procesosdiferentes de análisis.

Un almacén de datos pretende proporcionar metodolo-gías y tecnología para recopilar e integrar los datoshistóricos de una organización, cuyo fin es el análisis, laobtención de resúmenes e informes complejos y laextracción de conocimiento. Esta tecnología está dise-ñada especialmente para organizar grandes volúmenesde datos de procedencia generalmente estructurada(bases de datos relaciónales, por ejemplo), aunque elconcepto general es útil para la organización de peque-ños conjuntos de datos en aplicaciones de Minería deDatos más modestas. Debe integrar datos externos,con lo que en realidad debe estar actualizándose fre-cuentemente de diferentes fuentes. La organización y elmantenimiento de esta información plantean cuestio-nes técnicas, fundamentalmente sobre cómo diseñar elalmacén de datos, cómo cargarlo inicialmente, cómomantenerlo y preservar su consistencia.

3. Técnicas de Minería de Datos

Dado que la Minería de Datos es un campo muy inter-disciplinar, existen diferentes paradigmas detrás de lastécnicas utilizadas para esta fase: técnicas de inferenciaestadística, árboles de decisión, redes neuronales, in-ducción de reglas, aprendizaje basado en instancias,algoritmos genéticos, aprendizaje bayesiano, programa-ción lógica inductiva y varios tipos de métodos basadosen núcleos, entre otros. Cada uno de estos paradigmasincluye diferentes algoritmos y variaciones de los mis-mos, así como otro tipo de restricciones que hacen quela efectividad del algoritmo dependa del dominio deaplicación, no existiendo lo el método universal aplica-ble a todo tipo de aplicación. Puede parecer evidenteque un método será mejor que otro si genera mejoresmodelos.

1. Técnicas bayesianas: son fáciles de usar, muy efi-cientes, pueden tratar muchos atributos (cientos omiles). No construyen modelos, sólo estiman unaserie de probabilidades.

2. Técnicas basadas en árboles de decisión y siste-mas de aprendizaje de reglas: son una de las estre-llas de la Minería de Datos. Son fáciles de usar,admiten atributos discretos y continuos, tratan bienlos atributos no significativos, los valores faltantes yel ruido. Son bastante eficientes y obtienen resulta-dos para clasificación bastante buenos métodos essu inteligibilidad; los métodos obtenidos se puedenexpresar como conjuntos de reglas. Uno de los in-convenientes de los árboles de decisión es su limi-

tada expresividad y que son inestables ante variacio-nes de la muestra.

3. Técnicas basadas en redes neuronales artificiales:Su ventaja principal es que, cuando están bien ajus-tadas, obtienen precisiones muy altas. Además sonmuy expresivas y permiten capturar modelos nolineales. Entre sus inconvenientes se suelen nom-brar su sensibilidad a valores anómalos (aunque sonrobustos al ruido no extremo y a los atributos no sig-nificativos), necesitan mu-chos ejemplos para elaprendizaje y son relativamente lentas y, fundamen-talmente, su incomprensibilidad. Son técnicas muyeficientes que permiten trabajar con datos con altadimensionalidad. Proporcionan modelos muy precisos.

4. Fases en la realización de un proyec-to de Minería de Datos

La Minería de Datos no es más que un paso esencial deun proceso más amplio cuyo objetivo es el descubri-miento de conocimiento en bases de datos. Este proce-so consta de una secuencia iterativa de etapas o fases:Fases del proceso de extracción de conocimiento:Preparación de Datos, Minería de Datos, Evaluación,Difusión y Uso de Modelos.

La realización de un proyecto de Minería de Datosconsta de varios pasos:

1. Análisis de las necesidades y definición del pro-blema, en la que se establecen los objetivos deMinería de Datos. La decisión de implantar unprograma de Minería de Datos y el diseño de un plandel mismo deben preceder a cualquiera de las fases.De hecho, establecer cuál es el contexto del proble-ma, los objetivos del mismo y plasmarlos en obje-tivos de Minería de Datos, es previo a pararnos apensar en recopilar y preparar los datos, realizar losmodelos, evaluarlos y utilizarlos. Para implantar unprograma de Minería de Datos: cuándo es conve-niente, con qué grado de autosuficiencia, qué fasesy cómo planificarlo, qué integración es necesariacon otros subsistemas de la organización y quérecursos materiales y humanos son necesarios.

2. Filtrado de datos: En esta fase se realiza unaselección y pre-procesado de los elementos “enbruto” que contienen una base de datos.

3. Selección de variables: Aun a pesar de la faseanterior, es habitual que en los bancos de informaciónhaya un exceso de datos que dificulte su manejo.

4. Algoritmos de extracción de conocimiento:Mediante una técnica de Minería de Datos se obtie-

pneu

ma

Especial

158

Page 4: Aplicacion de La Mineria de Datos

ne un modelo de conocimiento que representapatrones de comportamiento observados en losvalores de las variables del problema o relaciones deasociación entre dichas variables. Generalmentecada técnica de minería aplicada a un modelo deconocimiento distinto precisará un filtrado y unaselección de variables previa diferente. Es en laconstrucción del modelo donde vemos mejor elcarácter iterativo del proceso de KDD, ya que seránecesario explorar modelos alternativos hastaencontrar aquel que resulte más útil para resolvernuestro problema.

5. Interpretación y evaluación: Una vez obtenido elmodelo de conocimiento se debe proceder a lavalidación del mismo, comprobando que las conclu-siones obtenidas son válidas y satisfactorias. Medirla calidad de los patrones descubiertos por unalgoritmo de Minería de Datos no es un problematrivial, ya que esta medida puede atañer a varioscriterios, algunos de ellos bastante subjetivos.Idealmente, los patrones descubiertos deben tenertres cualidades: ser precisos, comprensibles (esdecir, inteligibles) e interesantes (útiles ynovedosos). Según las aplicaciones puede interesarmejorar algún criterio y sacrificar ligeramente otro,como en el caso del diagnóstico médico queprefiere patrones comprensibles aunque suprecisión no sea muy buena. Para entrenar y probarun modelo se parten los datos en dos conjuntos: elconjunto de entrenamiento (training set) y elconjunto de prueba o de test (test set). Estaseparación es necesaria para garantizar que la vali-dación de la precisión del modelo es una medidaindependiente. Si no se usan conjuntos diferentesde entrenamiento y prueba, la precisión del modeloserá sobreestimada, es decir, tendremos estimacio-nes muy optimistas.

6. Fase de difusión, uso y monitorización. Una vezconstruido y validado el modelo puede usarse esnecesario su difusión, es decir que se distribuya y secomunique a los posibles usuarios, ya sea por cau-ces habituales dentro de la organización, reuniones,intranet, etc. El nuevo conocimiento extraído debeintegrar el know-how de la organización. También esimportante medir lo bien que el modelo evoluciona.Aun cuando el modelo funcione bien debemos con-tinuamente comprobar las prestaciones del mismo.Esto se debe principalmente a que los patronespueden cambiar. Por lo tanto, el modelo deberá sermonitorizado, lo que significa que de tiempo entiempo el modelo tendrá que ser re-evaluado, re-entrenado y posiblemente reconstruido completa-mente.

5. Análisis de las alteraciones respira-torias durante el sueño utilizando Mi-nería de Datos

Consideramos alteraciones respiratorias durante elsueño como el término común que nos permite referir-nos a un conjunto amplio de trastornos relacionadoscon pacientes que presentan síndrome de apnea delsueño6-9, EPOC10, enfermedades restrictivas torácicaso neuromusculares11-15, o insuficiencia cardiaca16-17.Este tipo de pacientes es objeto de múltiples estudiosen las Unidades de Sueño Neumológicas. Aparte de lahistoria clínica, exploración física, analítica, espirometríay gasometría o ECG estos pacientes son sometidos aestudios del sueño durante los cuales se monitorizandistintas variables respiratorias y neurológicas6,7. Den-tro de estos estudios hay que destacar la oximetría,poligrafía respiratoria y polisomnografía. La medicinaactual extrae una información muy limitada de losestudios antes referidos18-19, y las herramientas soft-ware que actualmente integran los equipos de polisom-nografía resultan del todo insuficientes, al detectarúnicamente eventos relativamente simples de analizarcomo es el de la falta de flujo respiratorio asociado a laapnea del sueño. Por ello se plantea la utilización detécnicas computacionales para la realización de unaexplotación de los datos disponibles20. Se trata funda-mentalmente de involucrar un mayor número de varia-bles fisiológicas en el estudio de los procesos fisiopato-lógicos que subyacen en las alteraciones cardiopulmo-nares del sueño, con el fin de encontrar nuevas relacio-nes causa/efecto que simplifiquen la generación denuevo conocimiento a partir de la ingente cantidad dedatos disponibles.

La aplicación de técnicas de Minería de Datos para elestudio de las alteraciones respiratorias durante el sue-ño puede plantearse en tres etapas bien diferenciadas,que se corresponden con un incremento en la dificultady consiguiente grado de innovación planteado: en unaetapa inicial se pueden aplicar técnicas convencionalesde Minería de Datos, posteriormente técnicas deMinería de Datos supervisada, de modo que el médicoguía la búsqueda de hallazgos de interés mediante suasociación con eventos fisiopatológicos conocidos; porúltimo, se pueden utilizar técnicas de Minería de Datosno supervisada, de modo que se busca una agregaciónen la identificación de manifestaciones a partir de ladefinición de índices de similitud.

En todas las enfermedades anteriormente referidas,síndrome de apnea del sueño, enfermedades respirato-rias obstructivas, enfermedades respiratorias restricti-vas e insuficiencia cardiaca, se producen alteracionesrespiratorias durante el sueño que tienen un origen mul-tifactorial y son, por tanto, el resultado de diferentesmecanismos fisiopatológicos. La monitorización noctur-

pneuma

159

Carlos Zamarrón Sanz et al. Aplicación de la minería de datos al estudio de las alteraciones respiratorias ...

Page 5: Aplicacion de La Mineria de Datos

na de estos pacientes muestra la presencia de eventoscomunes (apneas, desaturaciones, arritmias cardiacas,etc.); sin embargo, su asociación y características (dura-ción, intensidad, etc.) muestra patrones diferentes quepueden ser específicos de cada entidad. El análisis deestos patrones puede mostrarnos datos de interés decada una de los trastornos mencionados, desconocidoshasta ahora mediante la aplicación de la mera inspec-ción visual del neumólogo. Podemos conocer la asocia-ción de diferentes patrones de distribución de eventosa diferentes trastornos, facilitando un diagnóstico pre-coz y un tratamiento más específico, y por tanto, máseficaz, permitiendo mejorar el pronóstico de un amplioconjunto de pacientes.

Por otra parte, estos procesos de Minería de Datos sonde aplicación en todos aquellos problemas que conlle-ven un análisis de un elevado número de variables conel fin de descubrir su relación con la aparición de deter-minados eventos. Así, podrían ser de aplicación tam-bién en la monitorización de pacientes en Unidades deCuidados Intensivos y/o Coronarios,

a) Fases en la aplicación de la técnica de Mineríade DatosLo primero que debemos desarrollar es un almacén dedatos teniendo en cuenta los procesos y guías clínicosimplicados en la atención de los pacientes con síndro-me de apnea del sueño. Hemos de delinear el análisismacroscópico y microscópico de los procesos implicados.

Resultados

Se ha desarrollado un almacén de datos teniendo encuenta los procesos y guías clínicas implicadas en laatención de los pacientes con síndrome de apnea delsueño. Los pacientes acuden a solicitar una cita desdedistintas fuentes, fundamentalmente de Medicina Pri-maria. Tras ser citados, son atendidos en una primeraconsulta. Desde esta consulta pueden ser dados de altao remitidos a ORL para revisión de la vía aérea superior.Desde esta primera consulta también pueden ser remiti-dos para la realización de un estudio del sueño. Con lainformación de este estudio se puede decidir el alta,iniciar un tratamiento específico con las consiguientesrevisiones dentro del Servicio o ser remitido a otro Servi-cio (Figura 1).

pneu

ma

Especial

160

Figura 1. Procesos implicados en la atención de pa-cientes con síndrome de apnea del sueño.

Figura 2. Guía clínica general.

Figura 3. Guía clínica de los pacientes con síndromede apnea del sueño.

Page 6: Aplicacion de La Mineria de Datos

La Figura 2 muestra una guía clínica general de atenciónde cualquier paciente, también aplicable al sujeto consíndrome de apnea del sueño.

La Figura 3 es una guía específica aplicable a los sujetoscon síndrome de apnea del sueño. Se tiene en cuenta 3factores clínicos habitualmente asociados a esta altera-ción, cual es la presencia de somnolencia diurna excesi-va, presencia de riesgos asociados a la enfermedad opresencia de obesidad. De acuerdo con estos factoresse tomas distintas decisiones específicas. La Figura 4estratifica el nivel de sospecha de síndrome de apneadel sueño y de acuerdo con ello realiza distintos proce-dimientos diagnósticos.

Las figuras 5, 6, 7, 8 exponen el diseño del almacén dedatos. Pueden verse distintas páginas de admisión,estudios complementarios y estudios de sueño.

La figuras 9, 10, 11, 12 (que sólo aparecen en la páginaweb) exponen los modelos desarrollados en UML (Len-guaje Unificado de Modelado) para el SAS, EPOC,enfermedades restrictivas y fallo cardiaco.

Discusión

Los médicos recopilan datos con apreciaciones subjeti-vas de los enfermos y usan diferentes teorías, modelosbasados en evidencias, representaciones del conoci-miento y estrategias de resolución de problemas parabasar sus juicios, que no se incluyen generalmente enlas descripciones que son guardadas en las historiasclínicas.

El aumento del volumen y variedad de información quese encuentra informatizada en bases de datos digitalesha crecido espectacularmente en la última década. Granparte de esta información es histórica, es decir, repre-senta transacciones o situaciones que se han produci-do. Aparte de su función de “memoria de la organiza-ción”, la información histórica es útil para predecir lainformación futura.

La Minería de Datos es un conjunto de técnicas deanálisis de datos que permiten extraer patrones,tendencias y regularidades para describir y comprendermejor los datos así como para predecir comportamien-tos futuros3,21. En el ámbito médico la aplicación de laMinería de Datos tiene interés en varios campos:

1. En el ámbito clínico resulta de ayuda para laidentificación y diagnóstico de patologías. Asimismotiene importancia para el descubrimiento de posi-bles interrelaciones entre diversas enfermedades.

2. Al nivel de medicina preventiva, resulta de interéspara la detección de pacientes con factores de ries-go para sufrir una patología.

3. Al nivel de gestión hospitalaria, se puede usarpara obtener predicciones temporales que permitie-sen optimizar los recursos disponibles y priorizar eluso de los diversos tratamientos para una mismapatología.

Los trastornos cardiopulmonares del sueño consistenen un conjunto de síntomas y signos derivados de lapresencia de apneas recurrentes durante el sueño, debi-das a la obstrucción parcial o completa de la vía aéreasuperior. Engloban un amplio espectro de alteracionesde entre las que destacamos el síndrome de apnea delsueño, la enfermedad pulmonar obstructiva crónica, lasenfermedades respiratorias restrictivas y la insuficienciacardiaca. Estos trastornos son muy habituales dentro dela práctica clínica diaria dentro de los Servicios deNeumología6-10.

El síndrome de apnea del sueño es una enfermedadcomún y, durante los últimos años, ha sido asociada aun incremento de morbi-mortalidad de origen cardiovas-cular y reconocida como un problema importante de salud

pneuma

161

Carlos Zamarrón Sanz et al. Aplicación de la minería de datos al estudio de las alteraciones respiratorias ...

Figura 4. G uía clínica de los pacientes con síndromede apnea del sueño.

Page 7: Aplicacion de La Mineria de Datos

pública. La repetición de apneas durante la noche condu-ce a hipoxemia nocturna y fragmentación del sueño.

La enfermedad pulmonar obstructiva crónica se caracte-riza por la presencia de un trastorno ventilatorio obstruc-tivo crónico y poco reversible con frecuentes episodiosde exacerbación, fundamentalmente invernales.

Dentro de las enfermedades respiratorias restrictivashemos de distinguir las enfermedades estructurales dela caja torácica y las neuromusculares. Las enfermeda-des estructurales de la caja torácica condicionan unareducción de los volúmenes pulmonares junto a unadisminución de la elasticidad del sistema respiratorio.Las enfermedades neuromusculares se caracterizan por

la presencia de debilidad de los músculos inspiratoriosque origina hipoventilación alveolar y la aparición defallo ventilatorio, que habitualmente es más precoz yacusado durante el período nocturno. A consecuenciade ello, se produce desorganización del sueño, condesestructuración y fragmentación del mismo, y sinto-matología relacionada como cefalea matutina y somno-lencia diurna21.

La insuficiencia cardiaca es una entidad nosológica deelevada prevalencia y con una mortalidad que supera lade muchas neoplasias conocidas actuales. El pronósti-co de la insuficiencia cardiaca es bastante más desfavo-rable de lo que habitualmente se suele pensar. Por des-gracia, los avances en los tratamientos farmacológicos

pneu

ma

Especial

162

Figura 5. Página de admisión del almacén de datos.

Page 8: Aplicacion de La Mineria de Datos

pneuma

163

Carlos Zamarrón Sanz et al. Aplicación de la minería de datos al estudio de las alteraciones respiratorias ...

Figura 6. Página de exámenes complementarios del almacén de datos.

Figura 7. Página de la poligrafía y oximetría del almacén de datos.

Page 9: Aplicacion de La Mineria de Datos

han provocado pocos cambios en la supervivencia. Porotra parte, aunque la presencia de trastornos respirato-rios durante el sueño en los pacientes con insuficienciacardiaca crónica había llamado ya la atención de losmédicos hace décadas, su presencia no se había estu-diado sistemáticamente hasta hace unos pocos añosencontrándose una correlación directa entre la severi-dad de dichos trastornos respiratorios durante el sueñoy el grado de deterioro funcional cardíaco y la presenciade arritmias ventriculares. Algunos estudios indepen-dientes sugieren que los pacientes con apneas cen-trales tienen peor pronóstico que los pacientes coninsuficiencia cardiaca sin apneas centrales22,23.

En todas las entidades antes referidas se genera grancantidad de información procedente de distintas vías.

En primer lugar, en relación con la historia clínica yexploración física, como ocurre en otras enfermedades.En segundo lugar, en relación con los estudios delsueño. La polisomnografía es una prueba fundamentalpara el diagnóstico, e indispensable para el manejo tera-péutico de los enfermos con SAS. Esta prueba aportauna gran cantidad de datos cuyo análisis medianteMinería de Datos puede aportarnos distintos patronesespecíficos de cada una de las enfermedades.

En el caso que nos ocupa, existe una importante rela-ción de sinergia patológica entre diversos trastornoscardiopulmonares (como ya se ha comentado, en estetrabajo nos centramos en la EPOC, insuficiencia car-diaca y los trastornos respiratorios de carácter restricti-vo) y las alteraciones respiratorios durante el sueño

pneu

ma

Especial

164

Figura 8. Página de la polisomnografía del almacén de datos.

Page 10: Aplicacion de La Mineria de Datos

(fundamentalmente el síndrome de apnea obstructivadel sueño). Por otra parte, dentro de la fisiología normalde la respiración durante el sueño aparecen modifica-ciones a nivel del calibre de las vías aéreas, de la con-tractilidad de la musculatura respiratoria y del control através del sistema nervioso central. Estos cambios noproducen alteraciones significativas a nivel de la respi-ración de un individuo normal sano, pero sí pueden seraltamente deletéreos para aquellos sujetos que presen-ten de base las enfermedades antes reseñadas (ymucho más si el sueño está afectado previamente poruna patología tan prevalente como es el SAS).

Otro punto a tener en cuenta es que los trastornos res-piratorios del sueño pueden no ser una enfermedadprimaria independiente, sino secundario a patologíasque no tienen en un inicio una clara afectación de la res-piración como sucede en la insuficiencia cardiaca o enlas neuropatías. La relación entre la insuficiencia cardía-ca y trastornos respiratorios secundarios como larespiración de Cheyne-Stockes o la aparición de apneade predominio central constituye un claro indicativo deque existe una importante relación entre la patologíarespiratoria y otras patologías. Asimismo se han analiza-do diversos parámetros no respiratorios tras la instau-ración de CPAP para tratamiento de SAS objetivandoimportante mejoría (por ej.: reducción de las cifras ten-sionales en pacientes con hipertensión previa de malcontrol con fármacos, mejoría de la sensibilidad a lainsulina en pacientes diabético).

Hemos desarrollado un almacén de datos y modelosteniendo en cuenta los distintos procesos y guías clíni-cas implicadas en la asistencia de los pacientes conalteraciones respiratorias durante el sueño. Una vezintroducidos los datos nos permitirá extraer patronesrelacionados o explicativos y por tanto extraer conoci-miento. Este proceso no es ajeno a la finalidad que tie-nen los almacenes de datos en cualquier organización.En definitiva un almacén de datos pretende proporcio-nar metodologías y tecnología para recopilar e integrarlos datos históricos de una organización, cuyo fin es elanálisis, la obtención de resúmenes e informes comple-jos y la extracción de conocimiento. Esta tecnologíaestá diseñada especialmente para organizar grandesvolúmenes de datos de procedencia generalmenteestructurada (bases de datos relaciónales, por ejemplo),aunque el concepto general es útil para la organizaciónde pequeños conjuntos de datos en aplicaciones deMinería de Datos más modestas, como es lo que noso-tros pretendemos. Debe integrar datos externos, con loque en realidad debe estar actualizándose frecuente-mente de diferentes fuentes. Es evidente, que la organi-zación y el mantenimiento de esta información planteacuestiones técnicas, fundamentalmente sobre cómodiseñar el almacén de datos, cómo cargarlo inicialmen-te, cómo mantenerlo y preservar su consistencia.

No debemos olvidar que en el momento actual los avan-ces tecnológicos han conseguido que cada vez hayapruebas complementarias cada vez más complejas yque producen una gran cantidad de información que enalgunos casos pueden incluso dificultar el manejo de lamisma.

Como ya se ha comentado previamente, dada la impor-tante prevalencia de las enfermedades a estudio, dadoque existen factores propios de las patologías queinteraccionan entre sí modificando el pronóstico de laenfermedad y dado el inmenso caudal de informaciónque se puede extraer de un paciente (datos de historiaclínica, de la enfermedad a estudio, de la exploraciónfísica, de las pruebas complementarias, etc.), resultacada vez más difícil el manejo de todo el conocimientoadquirido por imposibilidad física (tiempo) y capacidad.

Por todas estas razones, si bien el uso de la Minería deDatos se pensó inicialmente como un recurso empresa-rial de información para mejorar su rendimiento a travésde modelos predictivos, en el momento actual es unaactividad que por las razones antes esgrimidas se estáempezando a aplicar en el campo de la medicina. LaMinería de Datos no sólo permite la creación de patro-nes y guías a través del procesado y análisis de un granvolumen de información, sino que además permitesacar nuevas relaciones e ideas que podrían haber que-dado ignoradas debido a la ingente cantidad de datosdisponibles. Además este proceso es dinámico e iterati-vo de tal forma que en función de los datos que nosinteresen se puede retomar la operación tantas vecescomo se desee para sacar nuevas conclusiones.

Agradecemos al Profesor Paulo Félix Lamas, del Depar-tamento de Ciencias de la Computación de la Facultadde Física de la Universidad de Santiago de Compostela,la ayuda prestada para la realización de este artículo.

Bibliografía

1. Fayyard U, Piatetsky-Shapiro G, Smyth P. From datamining to knowledge discovery: an overview. In Advances inKnowledge Discovery and Data Mining, 1996.

2. Cios K, Pedrycz W, Swiniarski R. Data mining methodsfor knowledge discovery. Kluwer, 1998.

3. Hernández Orallo J, Ramirez Quintana MJ, Ferri RamirezC. Introducción a la Minería de Datos. Editorial PearsonPrentice Hall. Madrid. 2004.

4. Lavrac N. Selected techniques for data mining in medi-cine. Artif Intell Med 1999; 16; 3-23.

pneuma

165

Carlos Zamarrón Sanz et al. Aplicación de la minería de datos al estudio de las alteraciones respiratorias ...

Page 11: Aplicacion de La Mineria de Datos

5. DAEDALUS: Aplicación de la Minería de Datos para eldiagnóstico de accidentes cerebro-vasculares agudos(ACVA) www.daedalus.es

6. Zamarrón C, Gude F, Otero Y, Alvarez Dobaño JM, GolpeA, Rodriguez Suárez JR. Sintomatología del síndrome deapnea del sueño en población general. Arch Bronconeumol1998; 34: 245 -249.

7. Zamarrón C, Hornero R, Del Campo F, Abasolo D,Alvarez D. Heart rate regularity analysis obtained from pulseoximetric recordings in the diagnosis of obstructive sleepapnea. Sleep Breath 2006;10: 83-9.

8. Del Campo F, Hornero R, Zamarron C, Abasolo DE, Alva-rez D. Oxygen saturation regularity analysis in the diagnosisof obstructive sleep apnea. Artif Intell Med 2006;37:111-8.

9. Zamarrón C, Gude F, Barcala J, Rodriguez JR, RomeroPV. Utility of oxygen saturation and heart rate spectral ana-lysis obtained from pulse oximetric recordings in the diagno-sis of sleep apnea syndrome. Chest 2003;123:1567-76.

10. Togores Solivellas B, Agustí AGN. Trastornosrespiratorios durante el sueño en la enfermedad pulmonarobstructiva crónica. Arch Bronconeumol 1996; 32: 32-39.

11. Sawicka E, Branthwaite M. Respiration during sleep inkyphoscoliosis. Thorax 1987;42:801-8.

12. Sivak ED, Shefner JM, Sexton l. Neuromuscular diseaseand hypoventilation. Curr Opin Pulm Med; 1999;5:355-62.

13. Smith PEM, Calverley PMA, Edwards RHT. Hypoxaemiaduring sleep and Duchenne muscular dystrophy. Am RevRespir Dis 1988;137:884-8.

14. Ferguson KA, Strong MI, Ahmad D, George CFP. Sleep-disordered breathing in Amiotrophic lateral sclerosis. Chest1996;110:664-9.

15. Shneerson l. Sleep in neuromuscular and thoracic cagedisorders. Eur Respir Mon 1998;10:324-44.

16. Javeheri S, Parker TJ, Wexler L. Occult sleep-disorde-red breathing in stable congestive heart failure. Ann InternMed 1995;122:487-92.

17. Staniforth AD, Kinnear WJM, Starling R, Cowley AJ.Nocturnal Desaturation in patients with stable heart failure.Heart 1998;79:394-99.

18. Deegan PC, McNicholas WT. Predictive value of clinicalfeatures for the obstructive sleep apnoea syndrome. EurRespir J 1996; 9:117-124.

19. Croker BD, Olson LG, Saunders NA, Hensley MJ,Mckeon JM, Allen KM, Gyulay SG. Estimation of theprobability of disturbed breathing during sleep before asleep study. Am Rev Respir Dis 1990;142:14-18.

20. Witten & Franck, Clark, P, Boswell, R. Data mining.Practical Machine Learning Tools and Techniques with JavaImplementations, Morgan Kaufmann Publishers. 2000.

21. Kirby S, Eng P, Danter W, Francovic T, Ferguson K.Neural network prediction of obstructive sleep apnea fromclinical criteria. Chest 1999;116:409-415.

22. Findley LJ,Zwillich CW, Ancoli-Israel S. Cheyne-Stokesbreathing during sleep in patients with left ventricular heartfailure. South Med J 1985;78:11-15.

23. Handly PJ, Zuberi-Khokhar Ns.Increased mortalityasociated with Cheyne-Stokes respiration in patientes withcongestive heart failure. Am J Respir Crit Care Med 1996;153:272-6.

pneu

ma

Especial

166