Upload
agueda-velasco
View
9
Download
4
Embed Size (px)
Citation preview
Codificación automatizada de documentos clínicos
Prof Dr Stefan Schulz Universidad de Freiburg (Alemania)
Prof Dr Edson Pacheco PUC Paraná, Curitiba (Brasil)
Lenguaje Natural (Texto)
Introducción Métodos Resultados Conclusión
Sistemas de Información Hospitalarios (SIH)
Introducción Métodos Resultados Conclusión
Introducción Métodos Resultados Conclusión
Introducción Métodos Resultados Conclusión
PACIENTE: ARM. CEDULA: 1079616148 3M95FECHA DE INGRESO: 09 02 09 FECHA DE NAC. 27 JUL 1996SEXO: Femenino
AHF: Madre de 45 años, dedicada al hogar, escolaridad secundaria, casada, católica, niega toxicomanías, padece HAS (13 años) y DM2 (2 años), hipotiroidismo (4 años) actualmente en tratamiento y las 3 controladas, padre de 47 años, obrero, escolaridad secundaria, católico, casado, alcoholismo ocasional, aparentemente sana, 1 hermana de 20 años, estudiante, aparentemente sana, resto de familiares directos interrogados y negados.APNP. Originaria y residente de Texcoco, habita en casa de sus padres, cuenta con todos los servicios básicos de urbanización, sin hacinamiento, baño y aseo diario, así como también cambio de ropa tanto interior como exterior, refiere alimentación buena cantidad, alimentada a base de carne roja 1/7, leguminosas 7/7, lácteos 2/7, (refería que ingería leche bronca de vaca hasta hace 2 años que presentaba intolerancia a esta, como gases y diarrea, frutas 7/7, verduras 7/7, enlatados 1/7, embutidos 3/7, refiere esquema de inmunización completo para su edad.APP: producto de la GII, la madre curso con preeclampsia desde los 5 meses de gestación, que posteriormente evoluciona a eclampsia, presentando crisis convulsivas a los 7 meses de gestación evoluciona a estado de coma en UTI, se obtiene producto único vivo por cesárea, estando en fase III de la ventilación, pretermino, no recuerda somatometría ni APGAR, con hospitalización binomio durante un mes, egresando sin complicaciones aparentes, desarrollo psicomotor adecuado, únicamente tartamudeo que mejoro con ejercicios. Quirurgicos, alérgicos y transfusionales negativos.PA: Lo inicia el 18 de Dic. Del 2008, con cefalea frontal, sin irradiaciones, cediendo a la administración de acido acetil salicílico, se agrega fiebre no cuantificada, por lo cual acude a su UMF donde inician tx para IVRA, con aparente mejoría, sin embargo con perdida ponderal de 13 kg en un mes, el 2 de enero del 2009, se repite cuadro de cefalea de las mismas características, agregándose emesis posprandial, de contenido gastroalimentario, asi como dolor epigástrico, y estreñimiento (3 dias) por lo cual acude a su HGZ donde se otorga tx para enfermedad acido péptica, con discreta mejoría, sin embargo persiste sintomatología acudiendo con facultativo que refiere a su HGZ donde es hospitalizada durante 8 dias, manejada con enemas evacuantes, agregándose disuria, polaquiuria y tenesmo vesical.EF: TA 100/60 mmhg FC 80 x min Temp 36 Peso 46 kg, paciente alerta, reactiva, con palidez de piel y tegumentos, cabello fino, quebradizo, ojos con pupilas isocoricas y normoreflexicas, orofaringe normal, cuello sin adenopatías, torax con cs ps con adecuada entrada y salida de aire sin estertores ni sibilancias, precordio rítmico no se auscultan soplos, reforzamiento del 2do ruido cardíaco, abdomen blando, depresible, no hepato ni esplenomegalia, peristalsis presente, extremidades inferiores sin edema, llenado capilar distal inmediato.ESTUDIOS DE LABORATORIO Y GABINETE08/02/09BH leucocitos 2.62, neutrofilos 0.91, linfocitos 1.34, monocitos 0.20, eosinofilos 0.13, HB 12.1 g/dl , plaq. 117 mil, PL 134 000, MCH 30.7 PG, MCV 89.6 fl.Glucosa 81 mg/dl, Cr 0.62, Na 140 mg/dl, K 4.41, Cl 104.
Introducción Métodos Resultados Conclusión
SEQ DE MULTIPLOS AVCS , HIST DE CRISES
CONVULSIVAS PREVIAS AOS EPISODIOS DESTA NOITE ,
APRESENTANDO PIORA GERAL , DESIDRATACAO LEVE
SEM PIUORA DA FUNACAO RENAL, RX COM
ATELECTASIAS DE BASES - CONSOLIDADCEOS?? PACIENTE
SEM FEBRE MEDIDAAQUI -MAX 37,1 TEM NIVEL SERICO
EM ANDAMNETO DE FENITOINA A SER CHECADO COM
FAMILAIR EM EM 24 H RECEBE TTO ATB COM
CEFUROXIMA VO -HMG NORMAL É DM SEM
IMPORTANTE DESCOPENSACAO.
Introducción Métodos Resultados Conclusión
Structured Data
… imprescindible para documentación e comunicación
todos los servicios de salud
ciencias biomédicas
médico / paciente
formación de profesionales
Lenguaje Natural (Texto)
Introducción Métodos Resultados Conclusión
e.g. Hospital Universitario
Freiburg (p.a.)
280.000 Resúmenes clínicos
140.000 Informes de radiología
55.000 Informes des patología
70.000 Otros textos
600.000 documentos en texto libre cada año.
Lenguaje Natural (Texto)
Introducción Métodos Resultados Conclusión
Datosestructurados
Introducción Métodos Resultados Conclusión
…indispensable para abstracción:
Codificación de enfermedades/procedimientos
Indexación bibliográfica
Gestión hospitalaria
Apoyo a decisión
Epidemiología
Investigación clínica
Introducción Métodos Resultados Conclusión
Datosestructurados
…requiere sistemas terminológicos
CIE-9 MC, CIE-10 MeSH UMLS LOINC SNOMED CT etc., etc.
Introducción Métodos Resultados Conclusión
Datosestructurados
Lenguaje Natural (Texto)
Introducción Métodos Resultados Conclusión
Datosestructurados
Análisis de datos
Captura de datos
Lenguaje Natural (Texto)
Introducción Métodos Resultados Conclusión
Datosestructurados
Captura de datos bajo presión de tiempo
Calidad
Volumen
motivación buena
motivación media
motivación baja
Introducción Métodos Resultados Conclusión
(hipotético mas plausible)
Lenguaje Natural (Texto)
Introducción Métodos Resultados Conclusión
Datosestructurados
how to bridge the gap?
Lenguaje Natural (Texto)
Método: Minería de textos
Introducción Métodos Resultados Conclusión
Datosestructurados
Proyecto de Investigación
• Datos
• Documentos en texto libre
(informes, resúmenes)
• Sistema terminológico que cubre el espacio conceptual
del dominio
• Empleando métodos de “minería de texto” para
representar el contenido de los documentos
• Cómo es el desempeño de la codificación
automática comparada con codificación manual?
Introducción Métodos Resultados Conclusión
Investigación
• Fuente:
– resúmenes de alta del
departamento de cardiología del
Hospital de Clínicas en
Porto Alegre,
Brasil
(Portugués)
• Destino
• SNOMED Términos Clínicos, 01/2009
• Lenguajes: Inglés, Castellano
Introducción Métodos Resultados Conclusión
SNOMED CT
SNOMED Términos Clínicos®
• Sistema de codificación para todo la historia clínica
• Estándar terminológico global
• Manutención / desarrollo : IHTSDO (International Health
Terminology Standards Development Organisation):
Miembros: US, UK, AU, NZ, CA, DK, SE, NL, LV, ES
Introducción Métodos Resultados Conclusión
SNOMED CT como vocabulario controlado
Términos clínicos (inclusive sinónimos e
traducciones) conectados con
conceptos (portadores de significado)
311 000conceptos
~750 000 términos ingleses,
~400 000 castellanos
Introducción Métodos Resultados Conclusión
SNOMED CT como ontología
taxonomías de clases:C1 isa C2 significa
x: instanceOf(x, C1) instanceOf(x, C2)
Introducción Métodos Resultados Conclusión
teoría la cual ofrece formulaciones precisas y matemáticas de las propiedades y relaciones de ciertas entidades
SNOMED CT : Jerarquías taxonómicas
Introducción Métodos Resultados Conclusión
SNOMED CT como ontología
Restricciones: lógica descriptiva.C1 – Rel – C2 significa:x: instanceOf(x, C1) y: instanceOf(C2) Rel(x,y) C1 ⊑ Rel.C2
Relaciones (Atributos): Associated morphologyFinding site
(50 tipos)
Introducción Métodos Resultados Conclusión
SNOMED CT como ontología
definierte vs. primitive Konzepte
conceptos definidos conceptos primitivos ⊑
Introducción Métodos Resultados Conclusión
Textos clínicos (resúmenes de alta)
Introducción Métodos Resultados Conclusión
Resumen de alta: ejemplo
# HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata -
orquiectomia (2004) # Cardiopatia isquêmica - IAM em 2005, com colocação de
stent em DA e lesão severa inoperável em CD Pct vem a emergência em 20/03
com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico
de angina instável e fibrilação atrial não identificada em avaliações prévias.
Adicionalmente, apresentava descompensação do diabetes com sindrome
hiperosmlar não cetótica. Recebe tratamento clínico para otimização do quadro
e é submetido a novo cateterismo em 28/03, que demonstra CD ocluída no
terço proximal, DA com stent rpoximal com lesão de 40% no seu interior e Mg
de Cx com lesão de 60-65%. Recebe alta em bom estado geral, sem dor
torácica, anticoagulado, com plano de retorno ambulatorial para equipe de
cardiopatia isquêmica e para o ambulatório de anticoagulação.
acrónimos
abreviaciones
errores depuntuación
errores de digitación
estilo telegráfico
Introducción Métodos Resultados Conclusión
Desafíos lingüísticos del lenguaje médico que importan para PLN:
• Derivación, neologismos:
nefrótico, antiinflamatórios, parkinsoniana, aidéticos
• Composición:
musculoesqueletico, esplenomegalia,
transfosforribosidasa, polyradiculoneuropathy
• Sinonimia: hepático = del hígado, renal = del riñón,
cephal... = cabeza
• Ambigüedad:
head = cabeza o jefe
Introducción Métodos Resultados Conclusión
Utilización de Herramientas PLN
• Detector de sentencias, etiquetador POS: openNLP, trenado con textos que
fueron manualmente anotados
• Extensor de acrónimos: emparejamiento con expresiones regulares contra
base de acrónimos, desambiguación por contextos locales (coocurrencia de
token en ventana de 3 token)
Introducción Métodos Resultados Conclusión
• Detector de frases nominales: estimación
mediante “hit list” de secuencias típicas de
etiquetas POS derivado de análisis del
SNOMED CT en castellano
• Principal reto: mapear frases nominales entre
Portugués (documentos) e Castellano/ Inglés
(SNOMED): indexación morfo-semántica
Padron de etiquetas Ocurrencias
NADJ NADJ 53725
NADJ 24843
NADJ NADJ NADJ 19922
NADJ PREPDE NADJ 18191
NADJ PREPDE NADJ NADJ 13462
NADJ PREPDE ART NADJ NADJ 10856
NADJ PREPDE ART NADJ 8392
NADJ NADJ PREPDE ART NADJ 6726
NADJ NADJ PREPDE NADJ 5721
NADJ NADJ PREPDE ART NADJ NADJ 5424
NADJ PREPDE NADJ NADJ NADJ 4453
NADJ NADJ NADJ NADJ 4199
NADJ NADJ PREPDE NADJ NADJ 4018
NADJ PREPDE ART NADJ NADJ NADJ 3289
NADJ PREPPOR NADJ 2797
Implementación de sistema PLN
identificarsentencias
verificarortografía
expansiónacrónimos
identificaciónde nombres
etiquetadortipo de palabra
extracciónfrases nominales
identificaciónde contexto
abstracciónmorfo-semántica
SNOMED - EN
SNOMED - SP
creaciónsubconjunto
abstracciónmorfo-semántica
representaciónmorfo-semantica
SNOMED CT
representaciónmorfosemantica
candidatos a término
Introducción Métodos Resultados Conclusión
Mapeo de terminos médicos
• Problemas• diferentes granularidades• uso de preposiciones y conjunciones• delimitación
highbloodpressure
hipertensãoarterial
meningoencefalite
Bluthochdruck
Entzündung
von Hirnhäuten
Gehirn
und
meningocerebral inflammation hipertensiónarterialmeningoencefaliti
s
Introducción Métodos Resultados Conclusión
MorphoSaurus: construye equivalencias semánticas a nivel de fragmentos de palabras
Átomos semánticos o „subwords“
• Definición: secuencia de caracteres cuyo
significado no se deriva de los significados de su
componentes:• morfemas (“neur”, “hepat”, “higad”,…)
• secuencias más longas: diáfisis pero no dia + fisis
diáfisis = parte de hueso, fisis (gr. physis) = naturaleza
neur + itis, mas neurose, no neur + ose
neur… = nervio, -itis = inflamación, -ose = enfermedad:
Una neuritis es una inflamación de nervio(s), pero
neurosis no es una enfermedad de nervio(s)
Introducción Métodos Resultados Conclusión
Sistema MorphoSaurus
• Sistema de indexación morfológica-semántica
• Traduce texto para un lenguaje de identificadores semánticos
• Basado en vocabulario clínico
• Idiomas: Inglés, Alemán, Portugués, Castellano, Sueco, Francés
• Componentes:
Léxico de subwords del dominio de medicina (manutención laboriosa)
Tesauro
Parser morfo-sintáctico
Indexador
• Se convirtió en producto (Averbis GmbH)
Introducción Métodos Resultados Conclusión
Modelo del Léxico
String of characters
Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}
Language = {English, alemán, Spanish, portugués, French, Swedish}
Lexeme(ex. „anticonceptivo“)
[anti, prefijo, castellano][conceptiv, tema, castellano][o, terminal sufijo, castellano]
(ex. „partnership“)
[partner, tema, english][ship, suffijo, english]
(ex. „ship“)
[ship, invariant, english]
Introducción Métodos Resultados Conclusión
Modelo del Léxico
String of characters
Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}
Language = {English, alemán, Spanish, portugués, French,Swedish}
Lexeme
MID1..n 1
MID42= ([muscle, tema, english], [muscul, tema,
english], [myo, prefix,
english], [muscul, tema,
portugués], [mio, prefix,
portugués], [muskel, tema,
alemán], [muskul, tema,
alemán], [myo, prefix,
alemán])
MIDs (Ids semanticos) identifican grupos de lexemas sinónimos
Introducción Métodos Resultados Conclusión
Modelo del Léxico
String of characters
Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}
Language = {English, alemán, Spanish, portugués, French,Swedish}
Lexeme
MID1..n 1
1
12…n
2…n
has-sense
expands-to
asocia un MID ambiguo con dos o más MID noambiguos
(expansión paradigmática)
asocia un MID de sentido no atómico con dos o más MID atómicos
(expansión sintagmática)
Introducción Métodos Resultados Conclusión
Modelo del Léxico
MID
1
12…n
2…n
has-sense
expands-to
associa um MID ambíguo com dois ou mais MID nãoambíguos
(expansão paradigmática)
associa um MID de sentido não atômico com dois ou mais MID atômicos
(expansão sintagmática)
MID16: ([head, tema, english])- has-sense MID12:
([caput, tema, english], [capit, tema, english], [cephal, tema, english], [cefal, tema, portugués], [cabec, tema, portugués])
- has-sense MID34: ( [chief, tema, english], [chef, tema, portugués])
MID26: ([myalg, tema, english], [mialg, tema, portugués])
-expands-to MID42: ([muscle, tema, english],
[muscul, tema, english], [muscul, tema, portugués])
-expands-to MID88: ([pain, tema, english],
[dor, invariant, portugués], [algia, suffix, portugués])
Introducción Métodos Resultados Conclusión
(MIDs)
Hahn, Schulz et al., RIAO 2004
Buscas: alemán, Documentos: inglés(colección OHSUMED)
Baseline: inglés/ inglés
indexación MorphoSaurus
Traducción automática +consulta diccionario
Sistema MorphoSaurus : resultados experimentales en escenario CLIR
Introducción Métodos Resultados Conclusión
secuencia de procesamiento de lenguaje natural
identificarsentencias
verificarortografía
expansiónacrónimos
identificaciónde nombres
etiquetadortipo de palabra
extracciónfrases nominales
identificaciónde contexto
abstracciónmorfológica-semántica
SCT - EN
SCT - SP
creaciónsubconjunto
abstracciónmorfológica-semántica
MID-representaciónSNOMED CT
MID-representación
candidatos a término
Introducción Métodos Resultados Conclusión
Heurística deMapeo
Heurística de mapeo: Ejemplo
SNOMED CTDescripción
MorphoSaurusMIDs
ENG: Congestive heart failure #abund #cardiac #deficien
ENG: Congestive heart disease #abund #cardiac #disorder
ENG: Congestive cardiac failure #abund #cardiac #deficien
SPA: Insuficiencia cardíaca #insuff #cardiac
SPA: Insuficiencia cardíaca congestiva #insuff #cardiac #abund
Introducción Métodos Resultados Conclusión
Heurística de mapeo
• Para cada “candidato a término” en el documento
• decida se existe un término SNOMED correspondiente
• caso si, seleccione el mejor término SNOMED
• Criterios de preferencia:
• Secuencias “típicas” de etiquetas POS, ex:
“Infarto agudo do miocárdio”
substantivo – adjetivo – DE – substantivo
• coincidencia de MIDs
• umbral: 60%
• En caso de falla: verifique se “candidato a término” corresponde a
dos o más conceptos de SNOMED , usando relacionamientos da
SNOMED para preselección
Introducción Métodos Resultados Conclusión
Estándar oro (kappa = 0.89)
Introducción Métodos Resultados Conclusión
Resultados
Number of tokens (MIDs) Correct Mappings2 66%3 71%4 80%5 89%6 79%7 80%8 75%9 45%10 25%
Introducción Métodos Resultados Conclusión
Comparación: Franz 2000: CIE-9 (German): 50%Ruch ICD-10: 2008 (French): Precision :50%, Recall
63% difícil! Farkas 2008: ICD-9-CM: F-Value 89%
Long 2005: SNOMED CT Diagnoses (English): P and R > 90%
Numero de identificadores semánticos Mapeos correctos
Total 78 %
Análisis de errores de mapeo
Categoría % Descripción
Extracción de frases nominales
20Frases nominales identificadas no correspondieron los del estándar oro
Mapeo al léxico de morfemas
24no mapeo (1/3) mapeo errado (2/3)
Contexto 3660 % negación 40% otros contextos
Errores no corregidos por corrección ortográfica
4
Acrónimos no expandidos 1
Otros errores 15
Introducción Métodos Resultados Conclusión
Próximo paso: identificar contextos
• Problema: no toda ocurrencia de un término en un
documento se refiere a una instancia concreta de un
concepto terminológico o ontológico
• Contextos alternativos:
• planos
• hipótesis
• negación
• Ignorar contextos: datos no confiables
Introducción Métodos Resultados Conclusión
acute abdomen
CTabdomen
aortal aneurysm
aneurysm-ectomy
vascular prosthesis
deathsystemicinfection
multiple organ failure
vasoactive drug
hemodialysis
Paciente interna por quadro de abdome agudo. TC de abdome mostrou aneurisma de aorta com evidencia de extravasamento de contraste. Levado a cirurgia de urgência, sendo realizada aneurismectomia com colocação de prótese. No pós-operatório evoluiu com síndrome da resposta inflamatória sistêmica, com disfunção de múltiplos órgãos e instabilidade hemodinâmica. Apesar do manejo com drogas vasoativas, reposição hídrica e hemodiálise veno-venosa crônica, o paciente apresentou piora progressiva, evoluindo para óbito.
Ontology
Contextos: Ejemplo 1
Introducción Métodos Resultados Conclusión
incisionalhernia herniorrhaphy
operation room
liver transplant
operation
• instance • not instantiated• reference to a
plan
operation
• reference to a suspendedplan
• instance • referenceto a plan
• NOT referringto the samepatient
• reference to a new plan
• not yet executed
PACIENTE COM HÉRNIA INCISIONAL INTERNOU PARA REALIZAÇÃO DE HERNIOPLASTIA PORÉM A CIRURGIA FOI SUSPENSA DEVIDO A NECESSIDADE DE SALA COM URGÊNCIA PARA TRANSPLANTE HEPÁTICO. RECEBE ALTA COM ORIENTAÇÕES E CIRURGIA REMARCADA.
Ontology
Contextos: Ejemplo 2
Introducción Métodos Resultados Conclusión
ConclusiónConclusión
• Trabajo siguiendo en pie – primeros resultados demuestran la factibilidad del mapeo
SNOMED automatizado entre idiomas
• Planos futuros– completar la cadena de procesamiento PLN
– Evaluar impacto de cada elemento de la cadena
– Identificar contextos
– Aprovechar la estructura ontológica de SNOMED CT
– Publicación en preparación(IEEE Transactions on Information Technology in Biomedicine)
Introducción Métodos Resultados Conclusión
Agradecimientos
• German Research Foundation (DFG)
• International Bureau of the
German Ministry of Research (BMBF-IB)
• Brazilian National Research Council (CNPq)
• Universidade Tecnológica Federal do Paraná (UTFPR), Curitiba
• Hospital de Clínicas de Porto Alegre (HCPA)
• Averbis GmbH, Freiburg