22
AP4: Realiserung der Semantischen Interoperabilität durch Informationsextraktions-Technologien MACSS-Abschlussveranstaltung 18.03.2019 Roland Roller, PhD

AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

AP4: Realiserung der Semantischen Interoperabilität durch

Informationsextraktions-Technologien

MACSS-Abschlussveranstaltung 18.03.2019Roland Roller, PhD

Page 2: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Klinische Informationsextraktion

MACSS-Abschlussveranstaltung 18.03.2019Roland Roller, PhD

Page 3: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Motivation3

Page 4: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Problem4

▪ Fokus: Nephrologie▪ Probleme:

○ Verfügbarkeit & Zugriff auf Daten○ Fehlende Tools○ Domänen-Abhängigkeit (z.B. Abkürzungen)○ Hohe Informationsdichte (Telegraphstil)○ Rechtschreibfehler○ Sätze oft nicht wohlgeformt

Page 5: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

NLP Pipeline5

Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.SatztrennungTokenisierung

PIAT NN PIAT NN . NN . NN ADJD . Wortart Tagging.

Dependenz-Parserpunctdet

punct

amod

punct

amodpunctdet

ADJD

Konzept Erkennung

Faktualitäts-ErkennungX XRelationsextraktion

Normalisierung- Kandidatensuche- Disambiguierung

No dysuria. No edema. Good appetit. Bowel movement normal.

Page 6: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Korpora6

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

Page 7: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Korpora7

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

# Example

Concept 22 Medical Condition, Treatment, Body Part, Process, State of Health, Medication, ...

Attribute 3 Time (past, present, future, …), Level of Truth (negative, speculated, possible future, …) , Person

Relationen 16 has_measure, has_state, involves, has_time_info, is_located, consequence, ...

Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.

X X

Fakten:

Verlaufsnotizen: 1300 Arztbriefe: 61 3 Studenten15 Monate

Page 8: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Korpora8

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

# Example

Wortart 40 ADJA, ADJD, ADV, ..., ART...NE, NN, ...

Dependenzen 34 acl, advcl, advmod, amod, …, det, ...

Fakten:

Verlaufsnotizen: 44Arztbriefe: 112 Studenten150 Stunden

Keine Dysurie. Keine Ödeme. Appetit gut. Stuhlgang normal.

PIAT NN PIAT NN . NN . NN ADJD ..

punctdet

punct

amod

punct

amodpunctdet

ADJD

Page 9: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Korpora9

▪ Erstellung von 3 Korpora○ Semantik: NER, RE, Faktualität○ Syntax: Wortarten & Dependenzen○ Laiensprache -> Expertensprache

Forumsbeiträge: 20002 Studenten5 Monate

Page 10: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Was haben wir erzielt?10

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

Page 11: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Was haben wir erzielt?11

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

Dependenz-Parsersiehe Kara et al., (2018)

Durchschnittlicher LAS mittels 10-fold Cross-Validation

Page 12: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Was haben wir erzielt?12

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

NER & REsiehe Roller et al., (2017)

Page 13: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Was haben wir erzielt?13

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.de

Negation Detectionsiehe Cotik et al., (2016)

Page 14: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Was haben wir erzielt?14

Pat. hat viel Durst. Appetit gut. Stuhlgang normal.

NN VVFIN ADV NN . NN ADJD . NN ADJD

advmodsubj

obj

punct

.

punct punct

amod amod

▪ Entwicklung grundlegender Technologien zur Verarbeitung deutscher klinischer Texte

▪ Verfügbar unter: http://macss.dfki.deConcept Normalisierung-> Kandidatensuchesiehe Roller et al., (2018)-> Disambiguierungsiehe Weissenborn et al., (2016)

aaaaaaaaa

GB: kommerzieller Übersetzer, BTM: unser In-Domain Übersetzer (lokal)

Page 15: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

mEx - medizinische Informations-Extraktion15

Schaut euch unsere Demo an!

Page 16: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Graph-KD - Exploring Relational Information of UMLS for Knowledge Discovery

16

Schaut euch unsere Demo an!

Page 17: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Patient Record Analysis17

Schaut euch unsere Demo an!

Page 18: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Credits18

▪ Christoph Alt, Ammer Ayach, Viviana Cotik, Aleksandra Gabryszak, Leonhard Hennig, Marc Hübner, Elif Kara, Michael Mikhailov, Oliver Martin, Firas Nosierat, Nils Rethmeier, Roland Roller, Sven Schmeier, Laura Seiffe, Rupali Sinha, Philippe Thomas, Hans Uszkoreit, Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Page 19: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Publikationen19

▪ 2018○ Johannes Kirschnick, Philippe Thomas, Roland Roller, Leonhard Hennig. SIA: a scalable interoperable annotation server for biomedical

named entities. In: Journal of Cheminformatics (JCheminf) 10:63, BioMed Central 12/2018. ○ Elif Kara, Tatjana Zeen, Aleksandra Gabryszak, Klemens Budde, Danilo Schmidt and Roland Roller. A Domain-adapted Dependency Parser

for German Clinical Text. 2018. In Proceedings of the 14th Conference on Natural Language Processing (KONVENS 2018), Vienna, Austria○ Danilo Schmidt, Verena Graf, Roland Roller, Oliver Staeck, Thomas Tolxdorff, Thorsten Schaaf, Alexander Löser, Feiyu Xu, Hans Uszkoreit,

Philipp Legge, Gero Lurz, Marco Wedekind, Kai Sachs, Sonja Oechsler, Klemens Budde, Sebastian Gaede and Fabian Halleck. Integrierte Versorgung chronisch kranker Patienten am Beispiel von MACSS. 2018. In Aljoscha Burchardt, Hans Uszkoreit (Eds.), IT für soziale Inklusion: Digitalisierung - Künstliche Intelligenz - Zukunft für alle (pp. 41-50). Berlin, Boston: De Gruyter.

○ Roland Roller, Madeleine Kittner, Dirk Weissenborn, Ulf Leser. Cross-lingual Candidate Search for Biomedical Concept Normalization. 2018. In Proceedings of MultilingualBIO, Miyazaki, Japan

▪ 2017○ Roland Roller, Nils Rethmeier, Philippe Thomas, Marc Hübner, Hans Uszkoreit, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo

Schmidt. Detecting Named Entities and Relations in German Clinical Reports. 2017. In Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology, Berlin, Germany.

○ F. Halleck, D. Schmidt, S. Georgi, V. Graf, S. Gaede, R. Roller, K. Budde und O. Staeck. mHealth und digitales Management nach Nierentransplantation. In Nieren- und Hochdruckkrankheiten, November 2017

○ Johannes Kirschnick and Philippe Thomas. Sia: Scalable interoperable annotation server. 2017. In Proceedings of the BioCreative V.5 Challenge Evaluation Workshop, Barcelona, Spain.

▪ 2016○ Viviana Cotik, Roland Roller, Feiyu Xu, Hans Uszkoreit, Klemens Budde and Danilo Schmidt. Negation Detection in Clinical Reports Written in

German. In Proceedings of the 5th Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM), 2016, Osaka, Japan, Association for Computational Linguistics

○ Roland Roller, Hans Uszkoreit, Feiyu Xu, Laura Seiffe, Michael Mikhailov, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo Schmidt. A fine-grained corpus annotation schema of German nephrology records. In Proceedings of the Clinical Natural Language Processing Workshop, 2016, Osaka, Japan, Association for Computational Linguistics

○ Dirk Weissenborn, Roland Roller, Feiyu Xu, Hans Uszkoreit and Enrique Garcia Perez. A Light-weight & Robust System for Clinical Concept Disambiguation. In Proceedings of the 7th International Symposium on Semantic Mining in Biomedicine, SMBM 2016, Potsdam, Germany

○ Fabian Hillock, Danilo Schmidt, Oliver Staeck, Thorsten Schaaf, Thomas Tolxdorff, Alexander Löser, Feiyu Xu, Hans Uszkoreit, Philipp Legge, Kai Sachs, Sonja Oechsler and Klemens Budde. Integrierte Versorgung nierentransplantierter Patienten, Entwicklung einer E-Health-Plattform. Dialyse aktuell, Vol. 20, No. 06, Pages 285-290, Georg Thieme Verlag, Stuttgart, New York, 7/2016

Page 20: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Publikationen20

▪ 2018○ Johannes Kirschnick, Philippe Thomas, Roland Roller, Leonhard Hennig. SIA: a scalable interoperable annotation server for biomedical

named entities. In: Journal of Cheminformatics (JCheminf) 10:63, BioMed Central 12/2018. ○ Elif Kara, Tatjana Zeen, Aleksandra Gabryszak, Klemens Budde, Danilo Schmidt and Roland Roller. A Domain-adapted Dependency Parser

for German Clinical Text. 2018. In Proceedings of the 14th Conference on Natural Language Processing (KONVENS 2018), Vienna, Austria○ Danilo Schmidt, Verena Graf, Roland Roller, Oliver Staeck, Thomas Tolxdorff, Thorsten Schaaf, Alexander Löser, Feiyu Xu, Hans Uszkoreit,

Philipp Legge, Gero Lurz, Marco Wedekind, Kai Sachs, Sonja Oechsler, Klemens Budde, Sebastian Gaede and Fabian Halleck. Integrierte Versorgung chronisch kranker Patienten am Beispiel von MACSS. 2018. In Aljoscha Burchardt, Hans Uszkoreit (Eds.), IT für soziale Inklusion: Digitalisierung - Künstliche Intelligenz - Zukunft für alle (pp. 41-50). Berlin, Boston: De Gruyter.

○ Roland Roller, Madeleine Kittner, Dirk Weissenborn, Ulf Leser. Cross-lingual Candidate Search for Biomedical Concept Normalization. 2018. In Proceedings of MultilingualBIO, Miyazaki, Japan

▪ 2017○ Roland Roller, Nils Rethmeier, Philippe Thomas, Marc Hübner, Hans Uszkoreit, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo

Schmidt. Detecting Named Entities and Relations in German Clinical Reports. 2017. In Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology, Berlin, Germany.

○ F. Halleck, D. Schmidt, S. Georgi, V. Graf, S. Gaede, R. Roller, K. Budde und O. Staeck. mHealth und digitales Management nach Nierentransplantation. In Nieren- und Hochdruckkrankheiten, November 2017

○ Johannes Kirschnick and Philippe Thomas. Sia: Scalable interoperable annotation server. 2017. In Proceedings of the BioCreative V.5 Challenge Evaluation Workshop, Barcelona, Spain.

▪ 2016○ Viviana Cotik, Roland Roller, Feiyu Xu, Hans Uszkoreit, Klemens Budde and Danilo Schmidt. Negation Detection in Clinical Reports Written in

German. In Proceedings of the 5th Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM), 2016, Osaka, Japan, Association for Computational Linguistics

○ Roland Roller, Hans Uszkoreit, Feiyu Xu, Laura Seiffe, Michael Mikhailov, Oliver Staeck, Klemens Budde, Fabian Halleck and Danilo Schmidt. A fine-grained corpus annotation schema of German nephrology records. In Proceedings of the Clinical Natural Language Processing Workshop, 2016, Osaka, Japan, Association for Computational Linguistics

○ Dirk Weissenborn, Roland Roller, Feiyu Xu, Hans Uszkoreit and Enrique Garcia Perez. A Light-weight & Robust System for Clinical Concept Disambiguation. In Proceedings of the 7th International Symposium on Semantic Mining in Biomedicine, SMBM 2016, Potsdam, Germany

○ Fabian Hillock, Danilo Schmidt, Oliver Staeck, Thorsten Schaaf, Thomas Tolxdorff, Alexander Löser, Feiyu Xu, Hans Uszkoreit, Philipp Legge, Kai Sachs, Sonja Oechsler and Klemens Budde. Integrierte Versorgung nierentransplantierter Patienten, Entwicklung einer E-Health-Plattform. Dialyse aktuell, Vol. 20, No. 06, Pages 285-290, Georg Thieme Verlag, Stuttgart, New York, 7/2016

http://macss.dfki.de

Page 21: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

Wie geht es weiter?21

▪ BigMedilytics○ Endpunktvorhersage, “Clinical Decision

Support” -> Kombination von unstrukturiertem Wissen mit extrahierten Daten aus Texten

▪ Ausbau mEx Plattform▪ Cross-Domain & Cross-lingual

Informationsextraktion

Page 22: AP4: Realiserung der Semantischen Interoperabilität durch …macss.dfki.de/publications/DFKI... · 2019-03-21 · Gaurav Vashisth, He Wang, Dirk Weissenborn, Feiyu Xu, Tatjana Zeen

22

https://pics.onsizzle.com/you-at-buffet-vs-me-at-buffet-5395324.png

Demo-Time!

Danke! Fragen?