Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
AP4: Realiserung der Semantischen Interoperabilität durch
Informationsextraktions-Technologien
MACSS-Abschlussveranstaltung 18.03.2019Roland Roller, PhD
Klinische Informationsextraktion
MACSS-Abschlussveranstaltung 18.03.2019Roland Roller, PhD
Motivation3
Problem4
▪ Fokus: Nephrologie▪ Probleme:
○ Verfügbarkeit & Zugriff auf Daten○ Fehlende Tools○ Domänen-Abhängigkeit (z.B. Abkürzungen)○ Hohe Informationsdichte (Telegraphstil)○ Rechtschreibfehler○ Sätze oft nicht wohlgeformt
NLP Pipeline5
Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.SatztrennungTokenisierung
PIAT NN PIAT NN . NN . NN ADJD . Wortart Tagging.
Dependenz-Parserpunctdet
punct
amod
punct
amodpunctdet
ADJD
Konzept Erkennung
Faktualitäts-ErkennungX XRelationsextraktion
Normalisierung- Kandidatensuche- Disambiguierung
No dysuria. No edema. Good appetit. Bowel movement normal.
Korpora6
▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache
Korpora7
▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache
# Example
Concept 22 Medical Condition, Treatment, Body Part, Process, State of Health, Medication, ...
Attribute 3 Time (past, present, future, …), Level of Truth (negative, speculated, possible future, …) , Person
Relationen 16 has_measure, has_state, involves, has_time_info, is_located, consequence, ...
Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.
X X
Fakten:
Verlaufsnotizen: 1300 Arztbriefe: 61 3 Studenten15 Monate
Korpora8
▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache
# Example
Wortart 40 ADJA, ADJD, ADV, ..., ART...NE, NN, ...
Dependenzen 34 acl, advcl, advmod, amod, …, det, ...
Fakten:
Verlaufsnotizen: 44Arztbriefe: 112 Studenten150 Stunden
Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.
PIAT NN PIAT NN . NN . NN ADJD ..
punctdet
punct
amod
punct
amodpunctdet
ADJD
Korpora9
▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache
Forumsbeiträge: 20002 Studenten5 Monate
Was haben wir erzielt?10
Pat. hat viel Durst. Appetit gut. Stuhlgang normal.
NN VVFIN ADV NN . NN ADJD . NN ADJD
advmodsubj
obj
punct
.
punct punct
amod amod
▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte
▪ Verfügbar unter: http://macss.dfki.de
Was haben wir erzielt?11
Pat. hat viel Durst. Appetit gut. Stuhlgang normal.
NN VVFIN ADV NN . NN ADJD . NN ADJD
advmodsubj
obj
punct
.
punct punct
amod amod
▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte
▪ Verfügbar unter: http://macss.dfki.de
Dependenz-Parsersiehe Kara et al., (2018)
Durchschnittlicher LAS mittels 10-fold Cross-Validation
Was haben wir erzielt?12
Pat. hat viel Durst. Appetit gut. Stuhlgang normal.
NN VVFIN ADV NN . NN ADJD . NN ADJD
advmodsubj
obj
punct
.
punct punct
amod amod
▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte
▪ Verfügbar unter: http://macss.dfki.de
NER & REsiehe Roller et al., (2017)
Was haben wir erzielt?13
Pat. hat viel Durst. Appetit gut. Stuhlgang normal.
NN VVFIN ADV NN . NN ADJD . NN ADJD
advmodsubj
obj
punct
.
punct punct
amod amod
▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte
▪ Verfügbar unter: http://macss.dfki.de
Negation Detectionsiehe Cotik et al., (2016)
Was haben wir erzielt?14
Pat. hat viel Durst. Appetit gut. Stuhlgang normal.
NN VVFIN ADV NN . NN ADJD . NN ADJD
advmodsubj
obj
punct
.
punct punct
amod amod
▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte
▪ Verfügbar unter: http://macss.dfki.deConcept Normalisierung-> Kandidatensuchesiehe Roller et al., (2018)-> Disambiguierungsiehe Weissenborn et al., (2016)
aaaaaaaaa
GB: kommerzieller Übersetzer, BTM: unser In-Domain Übersetzer (lokal)
mEx - medizinische Informations-Extraktion15
Schaut euch unsere Demo an!
Graph-KD - Exploring Relational Information of UMLS for Knowledge Discovery
16
Schaut euch unsere Demo an!
Patient Record Analysis17
Schaut euch unsere Demo an!
Credits18
▪ Christoph Alt, Ammer Ayach, Viviana Cotik, Aleksandra Gabryszak, Leonhard Hennig, Marc Hübner, Elif Kara, Michael Mikhailov, Oliver Martin, Firas Nosierat, Nils Rethmeier, Roland Roller, Sven Schmeier, Laura Seiffe, Rupali Sinha, Philippe Thomas, Hans Uszkoreit, Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen
Publikationen19
▪ 2018○ Johannes Kirschnick, Philippe Thomas, Roland Roller, Leonhard Hennig. SIA: a scalable interoperable annotation server for biomedical
named entities. In: Journal of Cheminformatics (JCheminf) 10:63, BioMed Central 12/2018. ○ Elif Kara, Tatjana Zeen, Aleksandra Gabryszak, Klemens Budde, Danilo Schmidt and Roland Roller. A Domain-adapted Dependency Parser
for German Clinical Text. 2018. In Proceedings of the 14th Conference on Natural Language Processing (KONVENS 2018), Vienna, Austria○ Danilo Schmidt, Verena Graf, Roland Roller, Oliver Staeck, Thomas Tolxdorff, Thorsten Schaaf, Alexander Löser, Feiyu Xu, Hans Uszkoreit,
Philipp Legge, Gero Lurz, Marco Wedekind, Kai Sachs, Sonja Oechsler, Klemens Budde, Sebastian Gaede and Fabian Halleck. Integrierte Versorgung chronisch kranker Patienten am Beispiel von MACSS. 2018. In Aljoscha Burchardt, Hans Uszkoreit (Eds.), IT für soziale Inklusion: Digitalisierung - Künstliche Intelligenz - Zukunft für alle (pp. 41-50). Berlin, Boston: De Gruyter.
○ Roland Roller, Madeleine Kittner, Dirk Weissenborn, Ulf Leser. Cross-lingual Candidate Search for Biomedical Concept Normalization. 2018. In Proceedings of MultilingualBIO, Miyazaki, Japan
▪ 2017○ Roland Roller, Nils Rethmeier, Philippe Thomas, Marc Hübner, Hans Uszkoreit, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo
Schmidt. Detecting Named Entities and Relations in German Clinical Reports. 2017. In Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology, Berlin, Germany.
○ F. Halleck, D. Schmidt, S. Georgi, V. Graf, S. Gaede, R. Roller, K. Budde und O. Staeck. mHealth und digitales Management nach Nierentransplantation. In Nieren- und Hochdruckkrankheiten, November 2017
○ Johannes Kirschnick and Philippe Thomas. Sia: Scalable interoperable annotation server. 2017. In Proceedings of the BioCreative V.5 Challenge Evaluation Workshop, Barcelona, Spain.
▪ 2016○ Viviana Cotik, Roland Roller, Feiyu Xu, Hans Uszkoreit, Klemens Budde and Danilo Schmidt. Negation Detection in Clinical Reports Written in
German. In Proceedings of the 5th Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM), 2016, Osaka, Japan, Association for Computational Linguistics
○ Roland Roller, Hans Uszkoreit, Feiyu Xu, Laura Seiffe, Michael Mikhailov, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo Schmidt. A fine-grained corpus annotation schema of German nephrology records. In Proceedings of the Clinical Natural Language Processing Workshop, 2016, Osaka, Japan, Association for Computational Linguistics
○ Dirk Weissenborn, Roland Roller, Feiyu Xu, Hans Uszkoreit and Enrique Garcia Perez. A Light-weight & Robust System for Clinical Concept Disambiguation. In Proceedings of the 7th International Symposium on Semantic Mining in Biomedicine, SMBM 2016, Potsdam, Germany
○ Fabian Hillock, Danilo Schmidt, Oliver Staeck, Thorsten Schaaf, Thomas Tolxdorff, Alexander Löser, Feiyu Xu, Hans Uszkoreit, Philipp Legge, Kai Sachs, Sonja Oechsler and Klemens Budde. Integrierte Versorgung nierentransplantierter Patienten, Entwicklung einer E-Health-Plattform. Dialyse aktuell, Vol. 20, No. 06, Pages 285-290, Georg Thieme Verlag, Stuttgart, New York, 7/2016
Publikationen20
▪ 2018○ Johannes Kirschnick, Philippe Thomas, Roland Roller, Leonhard Hennig. SIA: a scalable interoperable annotation server for biomedical
named entities. In: Journal of Cheminformatics (JCheminf) 10:63, BioMed Central 12/2018. ○ Elif Kara, Tatjana Zeen, Aleksandra Gabryszak, Klemens Budde, Danilo Schmidt and Roland Roller. A Domain-adapted Dependency Parser
for German Clinical Text. 2018. In Proceedings of the 14th Conference on Natural Language Processing (KONVENS 2018), Vienna, Austria○ Danilo Schmidt, Verena Graf, Roland Roller, Oliver Staeck, Thomas Tolxdorff, Thorsten Schaaf, Alexander Löser, Feiyu Xu, Hans Uszkoreit,
Philipp Legge, Gero Lurz, Marco Wedekind, Kai Sachs, Sonja Oechsler, Klemens Budde, Sebastian Gaede and Fabian Halleck. Integrierte Versorgung chronisch kranker Patienten am Beispiel von MACSS. 2018. In Aljoscha Burchardt, Hans Uszkoreit (Eds.), IT für soziale Inklusion: Digitalisierung - Künstliche Intelligenz - Zukunft für alle (pp. 41-50). Berlin, Boston: De Gruyter.
○ Roland Roller, Madeleine Kittner, Dirk Weissenborn, Ulf Leser. Cross-lingual Candidate Search for Biomedical Concept Normalization. 2018. In Proceedings of MultilingualBIO, Miyazaki, Japan
▪ 2017○ Roland Roller, Nils Rethmeier, Philippe Thomas, Marc Hübner, Hans Uszkoreit, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo
Schmidt. Detecting Named Entities and Relations in German Clinical Reports. 2017. In Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology, Berlin, Germany.
○ F. Halleck, D. Schmidt, S. Georgi, V. Graf, S. Gaede, R. Roller, K. Budde und O. Staeck. mHealth und digitales Management nach Nierentransplantation. In Nieren- und Hochdruckkrankheiten, November 2017
○ Johannes Kirschnick and Philippe Thomas. Sia: Scalable interoperable annotation server. 2017. In Proceedings of the BioCreative V.5 Challenge Evaluation Workshop, Barcelona, Spain.
▪ 2016○ Viviana Cotik, Roland Roller, Feiyu Xu, Hans Uszkoreit, Klemens Budde and Danilo Schmidt. Negation Detection in Clinical Reports Written in
German. In Proceedings of the 5th Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM), 2016, Osaka, Japan, Association for Computational Linguistics
○ Roland Roller, Hans Uszkoreit, Feiyu Xu, Laura Seiffe, Michael Mikhailov, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo Schmidt. A fine-grained corpus annotation schema of German nephrology records. In Proceedings of the Clinical Natural Language Processing Workshop, 2016, Osaka, Japan, Association for Computational Linguistics
○ Dirk Weissenborn, Roland Roller, Feiyu Xu, Hans Uszkoreit and Enrique Garcia Perez. A Light-weight & Robust System for Clinical Concept Disambiguation. In Proceedings of the 7th International Symposium on Semantic Mining in Biomedicine, SMBM 2016, Potsdam, Germany
○ Fabian Hillock, Danilo Schmidt, Oliver Staeck, Thorsten Schaaf, Thomas Tolxdorff, Alexander Löser, Feiyu Xu, Hans Uszkoreit, Philipp Legge, Kai Sachs, Sonja Oechsler and Klemens Budde. Integrierte Versorgung nierentransplantierter Patienten, Entwicklung einer E-Health-Plattform. Dialyse aktuell, Vol. 20, No. 06, Pages 285-290, Georg Thieme Verlag, Stuttgart, New York, 7/2016
http://macss.dfki.de
Wie geht es weiter?21
▪ BigMedilytics○ Endpunktvorhersage, “Clinical Decision
Support” -> Kombination von unstrukturiertem Wissen mit extrahierten Daten aus Texten
▪ Ausbau mEx Plattform▪ Cross-Domain & Cross-lingual
Informationsextraktion
22
https://pics.onsizzle.com/you-at-buffet-vs-me-at-buffet-5395324.png
Demo-Time!
Danke! Fragen?