67
저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약 ( Legal Code) 을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

저 시-비 리- 경 지 2.0 한민

는 아래 조건 르는 경 에 한하여 게

l 저 물 복제, 포, 전송, 전시, 공연 송할 수 습니다.

다 과 같 조건 라야 합니다:

l 하는, 저 물 나 포 경 , 저 물에 적 된 허락조건 명확하게 나타내어야 합니다.

l 저 터 허가를 면 러한 조건들 적 되지 않습니다.

저 에 른 리는 내 에 하여 향 지 않습니다.

것 허락규약(Legal Code) 해하 쉽게 약한 것 니다.

Disclaimer

저 시. 하는 원저 를 시하여야 합니다.

비 리. 하는 저 물 리 목적 할 수 없습니다.

경 지. 하는 저 물 개 , 형 또는 가공할 수 없습니다.

Page 2: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

공 사 논

자연어처리 법 이용

병리보고 부

이 마커 보 추출

Extracting Biomarker Information

From Pathology Reports Using Natural

Language Processing

2014 2월

울 원

동과 이 엔지니어링 공

Page 3: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

자연어처리 법 이용

병리보고 부

이 마커 보 추출

지도 진 욱

이 논 공 사 논 출함

2013 12월

울 원

동과 이 엔지니어링 공

이 사 논 인 함

2013 12월

원 장 (인)

부 원장 (인)

원 (인)

Page 4: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

i

병리진단 검체에 이 마커 시험 결과를 탕 이루어

지므 , 질 별 이 마커 양 양상 데이 보는 근거 심

질 향상에 여 있다. 재 이러 보를 얻 해

는 출 헌 자료를 직 분 여야 신뢰도 있는 자료를 얻

있 에, 량 데이 를 양 악 가

어 운 실 이다. 라 본 논 량 병리보고 부 질

별 이 마커 양 보를 분 써, 면역

검사보고 부 이 마커 보를 추출 는 법에 해

다.

본 연구는 면역 검사보고 를 입 아 이 마커

과 그에 해당 는 결과 보를 구조 여 출 는 시스

개 목 다. 이를 해, 본 시스 사 에 병

리보고 작 법 탕 구 분 행 여 간 구조

데이 를 얻는다. 그다 , 이 마커 규 를 통해 다양

이 마커를 시스 변 여 종

이 마커 보를 생 다.

특히, 단 사 검색 이용 변 타가

포함 이 마커명에 인식 없다는

해결 해, 후보생 과 과 과 거쳐

타 검 (檢正)이 가능 규 를 시도 다.

Page 5: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

ii

후보생 모듈 병리 보고 특 고 규 후보생 ,

UMLS(Unified Medical Language System) 데이 베이스 검색

통 후보생 , 사 자열 검색 통 후보생 과 통해 후

보 생 다.

모듈 동일 조직에 같이 검사 이 마커 집

합 맥 보 주었 해당 후보가 함께 사용

조건부 과 자열 사도를 후보 합 이용

여 종 시스 결 다.

시스 능평가를 해 울 병원에 2012 도에 생

면역 검사보고 8,566건에 해 시스 실행해 본 결과,

이 마커 규 이 마커 단 도가 0.9039, 이

마커 도 단 도는 0.9825 높 능 다.

주요어: 자연어처리, 보추출, 타 , 이 마커, 병리보고

번: 2012-21020

Page 6: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

iii

목 차

List of tables

1. 울 병원 면역 검사보고 / 항목 ··············8

2. 맥시 스 맥 보 이 보 ···············································29

3. 이 마커 맥 보 이 보 ···············································29

4. 맥 보 생 ···················································································30

5. 후보 자열 이 보 ·······································································31

6. UMLS 검색 용어 ·································································36

7. 자열 사도 알고리즘 명 ·······························································37

8. 시맨틱타입 에 사용 시맨틱타입 보 ·····································40

9. 실험 데이 보 ·····················································································44

10. 베이스라인 시스 도 시스 단계별 도(

종 ) ·············································································································47

11. 베이스라인 시스 도 시스 단계별 도( 도

) ·················································································································48

Page 7: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

iv

그 림 목 차

List of figures

그림 1. Pathpedia 스 공 면 시 ····················································2

그림 2. 이 마커 다양 시 ·····················································3

그림 3. 이 마커 타 검 어 움 ·························································4

그림 4. 본 연구 시스 목 ·········································································5

그림 5. 면역 검사보고 부분 구 시 ·····························9

그림 6. 면역 검사보고 리스트/ 이 식 구조 시 ·················10

그림 7. 이 마커 검사 트 시 ·····················································13

그림 8. UMLS 다 용어사 내용 통합 여 보여주는 시 ·····16

그림 9. 타시소러스 용어 식별자 부여 시 ·········································17

그림 10. 시맨틱 트워크 범주 간 계 일부 ··········································18

그림 11. 공 에 른 UMLS 검색 결과 차이 ······························21

그림 12. 이 에 른 UMLS 검색 결과 차이 ··························21

그림 13. 다 검색 결과 에 별해야 는 시 22

그림 14. 이 마커 보추출 시스 구 다이어그램 ······················23

그림 15. 면역 검사보고 Backus-Naur Form(BNF) ·················24

그림 16. 보고 분 도 ··································································25

그림 17. 이 마커 시소러스 장 과 름도 ······································27

Page 8: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

v

그림 18. 이 마커 시소러스 장 시 ····················································28

그림 19. 맥 보 이 생 시 ····························································30

그림 20. 종 시스 출 결 과 ··························································32

그림 21. 자열 클린징 과 ··········································································34

그림 22. UMLS 검색 후보생 도 ················································35

그림 23. 사 자열 검색 후보생 과 ··········································38

그림 24. 후보 과 름도 ··············································39

그림 25. 맥 PossibleMarkerList 생 과 름도 ·······41

그림 26. 시스 단계별 이 마커 처리 양상 그래 ( 종 ) 48

그림 27. 시스 단계별 이 마커 처리 양상 그래 ( 도 ) ··48

그림 28. Score-based PT 단계 에러 별 도 ·························48

Page 9: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

vi

목 차

Contents

I. ····················································································································1

1.1. 연구 경 요 ············································································1

1.2. 연구 목 ····································································································5

1.3. 연구 범 ····································································································6

II. 경 ···················································································································8

2.1. 면역 검사보고 ················································································8

2.1.1. 구조 특 ························································································9

2.1.2. 내용 특 ····················································································11

2.1.2.1. 이 마커명 다양 ················································11

2.1.2.2. 이 마커명 타 ························································11

2.1.2.3. 이 마커명 속 불용어 ··············································12

2.1.2.4. 이 마커명 특 자 다양 ····························12

2.1.2.5. 이 마커 검사 트 존재 ····································13

2.2. MeSH(Medical Subject Headings) ················································14

2.3. UMLS(Unified Medical Language System) ·······························15

2.3.1. 타시소 스(Metathesaurus) ···················································16

Page 10: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

vii

2.3.2. 시맨틱 트워크(Semantic Network) ·····································17

2.3.3. UMLS 검색 ·····················································································18

2.3.4. UMLS Terminology Services API 2.0 ································19

2.4. UMLS 이용 용어 검색 ···················································20

2.4.1. 공 에 른 검색결과 차이 ········································20

2.4.2. 이 (Hyphen) 에 른 검색결과 차이 ·················20

2.4.3. 다 후보 결과 출 인 모 ··································22

III. 이 마커 보추출 시스 ·····································································23

3.1. 체 시스 구 ···············································································23

3.2. 보고 분 ·························································································24

3.3. 이 마커 규 ·················································································26

3.3.1. 스 리 모듈 ········································································26

3.3.1.1. 이 마커 시소러스 장 ····················································27

3.3.1.2. 이 마커 시소러스 업데이트 ············································28

3.3.1.3. 맥 보 이 생 ····························································29

3.3.1.4. 후보 자열 이 리 ································31

3.3.1.5. 종 시스 출 결 ··························································31

3.3.2. 후보 생 ····································································33

3.3.2.1. 규 후보 생 ································································33

Page 11: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

viii

3.3.2.2. UMLS 검색 후보 생 ··················································34

3.3.2.3. 사 자열 검색 후보 생 ······································36

3.3.3. ··············································································39

3.3.3.1. UMLS 시맨틱타입 ························································39

3.3.3.2. 맥 ··········································································40

3.3.3.3. 후보 합 계산 ····································································42

IV. 실험 평가 ·································································································44

4.1. 실험 경 ·································································································44

4.2. 실험 법 ·································································································45

4.3. 실험 결과 ·································································································47

V. 고찰 ··················································································································49

VI. 결 ·················································································································50

참고 헌 ·················································································································52

Abstract ················································································································54

Page 12: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

1

I.

1.1. 연구 경 요

통 에 진단 료는 부분 단편 인 임상 경험이나 질

병 커니즘(Mechanism)에 근거 추 에 라 결 어 다. 그러

나 재 계에 는 근거 심 (Evidence-based medicine)

요 이 커짐에 라, 모든 임상 단 신 임상 연구 결과를

탕 과 근거 에 결 는 식이 생겼다. 자연히 임상

사 결 연구에 근거 사용 있는 보를 공

있는 시스 에 요구도 생겨났다[1].

이는 병리 과 료진 사이에 도 나타나고 있다. 특히, 병리 진

단 결 , 진단과 이 마커 사이 계를 진단 근거

사용 고자 는 요구가 있다. 이를 충족 스 일

[그림1]과 같이 Pathpedia[2]에 Immunopedia 스를 통해

각 질 군 별 시행 는 면역검사 종 면역검사별 양 보

를 공 여 병리 자가 면역검사를 고자 참고 자료 용

있도 고 있다.

다만, Immunopedia는 출 논 자료를 탕 인 사용해

이 마커 보를 리함에 라 시간과 노 이 요 뿐만 아니라,

이에 른 이 마커 사용 황(Trend) 악에 시간 지연이 생 는

가 있다. , 국 자료를 탕 므 국인 특

자료 보 어 우며, 논 나 내용 탕

Page 13: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

2

그림 1Pathpedia서비스 제공 화면 시 (출처:http://pathpedia.com)

보가 생 므 사 질 이 마커 종 가 어

있고 신 임상 결과 보 도 어 다.

본 연구에 는 이를 해결 해, 병리과에 자

생 조직면역 검사자료에 이 마커 보를 추출 여, 추후

임상진이 국에 료 효과를 검증 고 자 별 시

근거 사용 있도 는 데에 었다.

지만 이 마커 시험 결과 보를 자연어 함에 라, 다른

분야에 도 나타나는 자연어 인 통계 처리 이 동일

게 존재 다. 즉, 산입 담당자에 라 같 개 이 마커라

도 약어, 동 어 등 다양 고 있 며, 과 에

도 이 이나 공 삽입 여부, 타 생 여부 등과 같이 용어 택

차이뿐만 아니라 같 용어라도 다르게 는 경우가 존재 다.

이 게 동일 이 마커에 이 다양 게 존재 에

[그림2] 양 도출 해 는 다르게 이 마커

명 인식 고 나 통일 규 가 요 다.

Page 14: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

3

그림 2바이오마커의 다양한 표 형 시

타는 2가지 분 있는데, 나는 타가 난 이 실

존재 는 다른 이 마커명과 일 는 경우이고, 다른 나는 타

가 난 이 실 존재 는 다른 이 마커명과 일 지 않는 경우

이다. 개 후자 타 검 난이도가 낮 작업이라 생각 있

나, 자 경우뿐만 아니라 후자 경우에 있어 도 타 에

심 주 가 요 다. 냐 면 면역 검사보고 에 이

마커 시 생 타 경우, 이 마커 자열 특 상 이가

짧고 자(Character) 차이 사 이 마커 자열이 다양 게

존재[그림3] 고 있어 원래 도 이 있는 후보 자열이

다양 게 존재 게 다. 보통 일상생 에 사용 는 장이나 일

속 타 에는 앞, 뒤 나 는 단어를 통해 맥 악 여

게 는데, 면역 검사보고 경우 이 마커 검사결과만

간략 게 므 타 검 에 사용 있는 보가 이다.

Page 15: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

4

그림 3바이오마커 오타 검정의 어려움의

면역 보고 에 이 마커명 타 가장 본

인 법 는 존 이 마커 리스트에 존재 지 않는 이 마커

이 나타날 마다 작업 지 여 규 이

작 여 사용 는 법이 있다. 는 새롭게 나타난 이 마커

UMLS(Unified Medical Language System)에 검색 여 찾

아지는 결과 용어(Preferred Term)를 지

도 도 있다.

지만 작업 맵 이 작 는 것 시간이 많이 소요

며, UMLS 검색 통 법 검색어가 지 않 면 결과가

생 지 않 뿐만 아니라 다른 미를 갖는 용어가 검색 결과 출

는 경우가 있어 이를 분 추가 인 작업 요 여

많 시간과 노 요 게 다.

본 연구에 는 앞 언 들 해결 해 병리보고

특 고 처리 장 통 후보 생 , 주변 이

마커 보를 이용 과 통해 시간과 노

많 양 이 마커 검사 결과 보를 추출 있는 시스

안 다.

Page 16: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

5

1.2. 연구 목

본 논 에 는 자연어 병리보고 부 이

마커 보를 추출 는 법 안 다.

병리 에 특 처리 후보생 법

통해 다양 이 마커명 나 규

여 구조 보 출 [그림4] 는 법 시 다.

그림 4시스템의 목

특히, [그림3]에 명 이가 짧 사 자열이 많아 타

이 어 운 이 마커 타 해, 맥 보( 나 검사

조직 시험 해 같이 사용 이 마커 집합 보)를 사용 여

타 검 능 높이고자 다.

본 연구 가 다 과 같다.

“병리임상 에 특 처리 이 마커 맥 보를 이용

면 이 마커 보 추출 능 높일 있 것이다.”

Page 17: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

6

1.3. 연구 범

본 연구에 는 자연어 이 마커 시행결과를 싱

(Parsing) 여 이 마커명이 부분과 양 여부 이

부분 구분 여 검사조직별 어떤 이 마커가 사용 었는지 1차

구조 를 시행 다 , 추출 보를 규 고자 다. 다만,

이 마커 시행결과인 양 여부 에 해 는 규 지 않고,

이 마커명에 해 만 규 는 것 범 를 다.

추출 이 마커는 MeSH(Medical Subject Headings) 용어체계

인 Main heading(MH) 사용

여 규 는 것 목 고, 해당 이 마커에 MeSH

용어가 존재 지 않는 경우 UMLS(Unified Medical Language

System) 용어체계 규 여 국 통용

는 용어 규 있도 다. 만약 UMLS 용어체계에도 존

재 지 않는 경우에는 병리임상 재량에 라

다.

본 연구에 는 이 마커 타를 고 규

여 단계에 “ 이 마커 맥 보

(Biomarker Context)”를 사용 다. 이 마커 맥 보는 새롭

게 용어 써, 나 조직 검사에 같이 사용 이 마커 집

합 뜻 다.

본 논 구 다 과 같다. 2장에 는 연구 재료 써 연구에 사

용 데이 인 울 병원 면역 검사보고 특 과 UMLS

Page 18: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

7

검색 통 검색 특징에 해 소개 다. 3장에 는 본 연

구를 통해 개 이 마커 보 추출 시스 에 해 명 고, 4

장에 는 시스 통 보 추출 능 평가 법과 결과를 시

다. 5장에 는 고찰, 6장에 는 결 다.

Page 19: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

8

II. 경

2.1. 면역 검사보고

울 병원에 는 자 검사조직에 해 이 마커 검사를

시행 경우 그 병리 독 결과를 면역 검사보고 식 생

다. 생 면역 검사보고 는 항목에 해당 는 보를 얻

추가 인 처리 요 여부에 라 부분과 부분 나

있다. 각 부분에 포함 항목 [ 1]에 나열 다.

정형

항목

면역화학검사보고서

번호(ID)의사명

환자명 수일시

성별 산입력자

나이 보고일

진료과/병동 병리 독인

환자번호

비정형

항목

검사조직의

외과병리보고서번호(ID)

검사조직의 바이오마커

검사 결과

표 1서울 학교병원 면역화학검사보고서의 정형/비정형 항목

이 , 부분에는 동일 조직에 해 다 이 마커 시행

결과가 포함 있 며, 다 조직에 검사가 포함 있다.

부분에 구체 인 구 시는 [그림5] 같다. 리스트 타

입과 이 타입과 자 명 2.1.1 구조 특 에 명

다.

Page 20: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

9

그림 5면역화학검사보고서의 비정형부분의 구성 시

본 연구에 는 이 마커 보 추출에 처리 과 에 고 면

용 구조 특 과 내용 특 리 다.

2.1.1. 구조 특

본 연구에 는 울 병원 면역 보고 부분

특징 크게 가지 식 나 었다. [그림6]

가지 식인 리스트타입 보고 이 타입 보고 시를 보여

다. 그림 보면 알 있듯이, 리스트타입 보고 는 이 마커명

과 그에 결과가 과 같 구분 자를 는 것이

고 이 타입 보고 는 이 마커명과 그 결과가 식 구분

자를 통해 는 보고 이다. 즉, 이 마커 그에 결과는

Page 21: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

10

-구조 식(Semi-structured type) 고 있 알 있다.

그림 6(a)는 리스트타입의 면역화학보고서 시,(b)는 테이블타입의

면역화학보고서 시임

본 연구에 는 각 보고 식에 이 마커명과 그 결과를 구분

사용 구분 자를 “ 식구분 자”라고 다. 식구분

자는 다시 새 운 이 마커 시험결과를 나타내 개행 구분 자

이 마커명과 결과를 나타내 결과구분 자 나 있

다. 리스트 식 보고 에 사용 는 식구분 자는 그 종 가 다양

지 않 나, 이 식 보고 에 사용 는 식구분 자는 식어

같 므 다양 게 나타날 있 에 주 여야 다.

Page 22: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

11

2.1.2. 내용 특

내용 특 는 처리 과 에 이 마커명

특 리 다.

2.1.2.1. 이 마커명 다양

임상 를 분 해보면, 이 마커명 가지

동일 게 지 않 알 있다. 국 용어 체계에 사용

는 이름 사용 는 경우는 드 며, 약어 같이 짧게

있는 법 주 사용 고 동 어 를 사용 도

다. 특 이 마커 경우 동 어 간 자열 사도가 극히

낮 있 므 이 주 여야 다.

2.1.2.2. 이 마커명 타

보고 입 사람이 입 게 므 , 그에 른 타가 생

게 다. 약어를 주 사용 는 상황에 나 자에 만 타

가 생해도 다른 미 이 마커명 인식 있

에 짧 이 이 마커명 경우 타여부를 인식 는 것

이 어 다.

Page 23: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

12

2.1.2.3. 이 마커명 속 불용어

이 마커 결과는 자 조직검사 슬라이드별 입 며, 시행

결과 질(Quality)에 라 동일 이 마커를 다시 검사 는 경

우가 있다. 이러 조직검사 시행에 고 사항 이 마커명

과 함께 는 경우가 있는데, 이는 본 연구 시스 과 같이 이 마

커명별 통계 보를 생 고자 는 경우 불용어(Stop Word)

생각 있다.

본 연구에 는 크게 4가지 불용어 식 여 처리에 사

용 고 있 며, 다 과 같다.

i.조직슬라이드 번호 ii. 미경 배율

iii.반복시행 여부 iv.바이오마커 회사

2.1.2.4. 이 마커명 특 자 다양

이 마커 이름 에는 마 자 라틴 자가 사용 는 경우

가 있다. 그런데 이 자 가 국 용어체계에 도 다양

게 는 경우가 있 에, 처리 과 에 이 미리 고

해주어야 일 인식 있다.

Page 24: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

13

2.1.2.5. 이 마커 검사 트(Order set) 존재

병리과에 는 특 진단 해 자주 사용 는 이 마커 검사

집합이 존재 다. 이를 이 마커 검사 트(Order Set)라

부르는데, [그림7]처럼 모든 진단 종 별 검사 트를 구

해놓지는 않고 자주 생 는 검사에 해 만 이러 트를

생 여 사용 다.

그림 7바이오마커 검사 오더 세트 시

그런데 검사 트를 지 여 사용 지 않아도, 특 이

마커는 같이 사용 는 이 마커 집합이 존재 는 경우가 있다. 이

러 특 이 마커 보 추출에 이용 여, 본 연구에

는 나 조직(Tissue) 검사 해 같이 사용 는 이 마

커 집합 보를 이 마커 맥 보(Biomarker Context)이라

다.

###

###

###

Page 25: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

14

2.2. MeSH(Medical Subject Headings)

이번 연구에 이 마커 MeSH 용어를 사용

고자 다.

MeSH는 미국 국립 도 (the National Library of Medicine,

이 NLM)에 작 통 용어 사 써, 용어 개 에 른 계

구조 작 여 헌 검색에 사용 다. 재 헌검색

에 리 사용 고 있는 NLM National Center for Biotechnology

Information(NCBI)에 공 는 PubMed 검색시스 에 헌색인

에 사용 는 용어 사 이 MeSH이므 , 시스 사용자 편 를 해

시스 MeSH를 사용 다.

MeSH는 용어 Main heading(MH), Preferred

entry term(PEP), Name of Supplementary Concept(NM), Print

entry term(EP), Non-print entry term(EN) 등 나 고

있 며, 본 연구에 는 MeSH 트리 상 에 는

MH 사용 고자 다.

Page 26: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

15

2.3. UMLS(Unified Medical Language System)

본 연구에 는 이 마커 있는 MeSH

용어가 존재 지 않는 경우, UMLS Metathesaurus preferred

name(PN) 사용 다.

UMLS는 NLM에 이 과 건강분야 언어를 이해 는 컴퓨

시스 개 에 사용 있도 작 통합 용어 시스 이다.

UMLS는 타시소 스(Metathesaurus) 시맨틱 트워크

(Semantic Network), SPECIALIST Lexicon & Lexical Tools

구 어 있다. 타시소 스는 100개 이상 용어 사 부 만

개 이상 생명 개 담고 있는 통합 사 이며, 시맨틱 트워크

는 133개 범주 54개 범주간 계(relationship)를 여

생명 분야에 라벨링(Labelling) 행 내용 담고 있다.

SPECIALIST Lexicon & Lexical Tools 자연어 처리에 요 어

보 그램 포함 다.

본 연구에 는 타시소 스 시맨틱 트워크, UMLS API를 이용

검색 능 사용 므 , 이에 내용 자 히 살펴보겠다.

Page 27: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

16

2.3.1. 타시소 스(Metathesaurus)

타시소 스는 MeSH용어사 포함 100개 이상 용어사

통합 용어 시스 이며, 용어 개 별 Concept unique

identifier(CUI)라 불리는 식별자를 부여 다.

를 들어, “atrial fibrillation(심 동)” 아래 [그림8]과 같이

각 다른 고 있는 다 용어사 내용 통합

여 나 CUI 에 동 어 개 보여 다.

그림 8UMLS의 다수의 용어사 내용을 통합하여 보여주는 시

나 용어를 UMLS에 추가 에는 UMLS 타시소 스 4

가지 벨 구조에 른 내용이 추가 다. 각각 Concept Unique

Identifiers(CUI), Lexical(term) Unique Identifiers(LUI), String

Unique Identifiers(SUI), Atom Unique Identifiers(AUI) 써, CUI

는 앞 명 같이 미(Concept)를 식별 식별자이

고 LUI는 어 인 변이를 나 인식 해 부여 식별자이다.

SUI는 소 자, 구 차이 등 모든 어 변이 별 나 식

별자를 부여 것이고 AUI는 나 용어 이 소스사 (source

vocabularies) 부 UMLS에 추가 , 각 별 부여 식별

자이다. [그림9 참고]

Page 28: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

17

그림 9 메타시소로스의 용어

식별자 부여 시

2.3.2. 시맨틱 트워크(Semantic Network)

시맨틱 트워크는 133개 범주 54개 범주 간 계

(relationship)를 여 생명 분야에 라벨링(Labelling)

행 내용 담고 있다. 133개 범주는 크게 개체(Entity) 사건

(Event) 나 있 며, 그룹별 계 구조 구 다. 각각 범

주는 고 식별자를 가지고 있 며, 계 구조상 를 식별

번 도 함께 가지게 다.

Page 29: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

18

그림 10시맨틱네트워크의 범주 간 계 일부

2.3.3. UMLS 검색

UMLS 검색 CUI, LUI, SUI, AUI과 같 식별자를 이용 검색

과 단어를 이용 검색 나 있 며, 단어 검색 아래처럼 7

가지 검색 통해 검색 행 있다.

l exact l words

l approximate l normalizedWords

l leftTruncation l normalizedString

l rightTruncation

exact 검색 경우 검색어 체 일 는 동 어 는

갖는 CUI를 검색결과 출 고, words 검색 경우

검색어 사 속 들 공 단어 구분 여 에

상 없이 검색어 단어들 다 포함 고 있는 CUI를 검색 결

Page 30: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

19

과 출 다. approximate 검색 공 분리 단어별

사 단어를 포함 이 있는 CUI를 검색 결과 출 다.

2.3.4. UMLS Terminology Services API 2.0

NLM에 는 웹 통해 UMLS Terminology Service를 공 여

사용자가 쉽게 UMLS 용어를 검색 있도 고 있 며, 동일

능 는 API 같이 공 고 있다. 재 포 고 있는

API는 2.0버 써 JDK6 이상 개 경에 구동 있게

어 있다.

Page 31: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

20

2.4. UMLS 이용 용어 검색

이 마커 에 가장 단 규 법 UMLS

단어 검색 능 이용 규 가 있다. 지만 UMLS 검색 계

인해 규 상 에 라 시간과 노 이 많이 요 있

다. 이 같 쿼리 에 른 검색 결과 차이를 아래 시를

통해 명 겠다.

2.4.1. 공 에 른 검색결과 차이

임상 에 는 CD 15 같이 자 자 사이에 공 삽입 여

사용 고 있 나, UMLS에 그 모든 검색 사용 여 검색

여도 검색결과가 나 지 않는다. 지만 공 삭 고 검색 면 검

색결과가 나 다. 이 듯 공 에 라 검색결과가 다르게 나타

날 있다[그림11참고].

2.4.2. 이 (Hyphen) 에 른 검색결과 차이

앞 2.4.1. 처럼 임상 에 는 CD-31 사용 고 있

나, CD31 검색해야 CUI가 검색 다[그림12참고].

Page 32: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

21

그림 11공백 유무에 따른 UMLS검색 결과의 차이

그림 12하이 유무에 따른 UMLS검색 결과의 차이

Page 33: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

22

2.4.3. 다 후보 결과 출 인 모

[그림12]처럼 exact match 검색 이용 에 4개 검색결

과가 나 는 것처럼, 나 검색어에 해 검색 결과가 여러 개 출

는 경우가 있다. 이 에는 검색 결과 에 해당 이 마커

에 지 별도 알고리즘 돌리거나

작업 통해 지 해 주어야 다. 특히, exact 검색 는 찾아지

지 않는 경우, word 검색 검색 거나 approximate 검색

후보를 찾아야 는 데 이 경우 결과가 상당히 많아지게 어 그

만큼 모 이 커지고 작업 시 소요 는 시간이 늘어나게 다.

[그림13]

그림 13그림 13다수의 검색 결과 에서 표표 형을 선별해야하는

시.(검색어:TG,정답 표표 형:Thyroglobulin)

Page 34: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

23

III. 이 마커 보추출 시스

3.1. 체 시스 구

이 장에 는 본 시스 체 구 에 해 다. 보추출

단계는 크게 2단계 면역 보고 스트를 분 여 이 마커

명과 시행 결과를 인식 다. 각 단계에 해 는 다 에 자 히

도 다. [그림14]는 본 연구에 안 이 마커 보 추

출 시스 체 구 다이어그램 나타낸 것이다.

그림 14바이오마커 정보추출 시스템의 구성 다이어그램

Page 35: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

24

3.2. 보고 분

보고 분 는 면역 검사보고 에 자연어 이 마커

시험 결과를 입 아 이 마커명 부분과 그에 결과 부분

나 는 일 다. 본 시스 에 는 2.1.1.에 언 구조 특

탕 [그림15] 같이 BNF(Backus-Naur Form)[3,4]

면역 보고 식 여 이 마커명과 결과 등

분리해내는 구 분 (Parsing)에 사용 다.

그림 15면역화학검사보고서의 Backus-NaurForm(BNF)

Page 36: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

25

보고 분 는 면역 검사보고 BNF를 탕 입

면역 검사보고 가 리스트 식인지 이 식 인지 분

다. 이 분 에 라 리스트 식 를 (Parser)

이 식 를 를 이용해, 이 마커명과 그 결과 그리

고 조직검사번 를 분리해낸다.

다만, 본 BNF에 벗어나는 경우 구조 식에 에러가 존재 다고

가 고, 식에러를 생시키는 집 여 각 에러

(Error Rate) 소 있도 다. 이를 합 과 [그

림16]과 같다.

그림 16보고서 분석기의 순서도

Page 37: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

26

3.3. 이 마커 규

보고 분 를 통해 검사조직에 이 마커명과 시험결과

1차 구조 가 끝나면 이 마커명에 규 를 시행 게 다.

이 마커명 규 는 시스 에 변

뜻 며, 본 시스 에 는 스 리 모듈 재 아래 크게 후보

생 과 단계를 거쳐 규 를 행 다. 다 부

통해 스 리 모듈과 후보 생 단계, 단

계에 해 자 히 다루겠다.

3.3.1. 스 리 모듈

스 리 모듈 다 과 같 5가지 역 행 다.

A.바이오마커 시소러스 확장

B.바이오마커 시소러스 업데이트

C.문맥정보 테이블 생성

D. 표표 형 후보 문자열 리스트 리

E.최종 시스템 출력 결정

이 마커 시소러스(Thesaurus)는 다양 게 이 마커

나 인식 있도 구 사 써, 이 마커

에 동 어 약어가 등 있도 다.

Page 38: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

27

3.3.1.1. 이 마커 시소러스 장

그림 17바이오마커 시소러스 확장 과정 흐름도

이 마커 시소러스는 [그림17]과 같이 울 병원 이

마커 리스트에 포함 이 마커 에 해 시스

지 여 생 다. 생 이 마커 시소러스는 2.1.2.4

에 언 했 이 마커명 특 자 다양 해소

해 특 자 규 를 시행 다. 특 자 규 를 통해 1

차 장 이 마커 시소러스에 해 자열이 다 과 같

갖는 경우 2차 장 시도 다.

Page 39: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

28

a)하이 포함 문자열

b)<숫자>(공백)<문자>

c)<문자>(공백)<숫자>

2차 장 인식 에 해 이 주변 공 자 삭 , 자

자 사이에 이 추가, 이 신 공 자 체 등 일

규 통해 행 다. [그림18] 2차 장 시이다.

그림 18바이오마커 시소러스 확장 시

3.3.1.2. 이 마커 시소러스 업데이트

3.3.1.1에 장 이 마커 시소러스는 이 마커 규 과

에 업데이트 있다. 이는 에 장 이 마커 시소러

스가 직 병원에 사용 는 이 마커 리스트에 고 생

것이 에 동 어를 포 고 있지 않 에 인 다.

라 이 마커 규 과 에 해당 이 이미 등

이 마커 동 어 임이 실시 는 경우, 해당

에 해 시소러스 장 과 용 여 이 마커 시소러스에

추가 다.

시소러스 업데이트는 추후 명 후보 생 단계 UMLS

Page 40: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

29

exact 검색 통해 생 후보 자열이 종

경우, 시소러스 업데이트 상이 다.

3.3.1.3. 맥 보 이 생

본 연구에 는 후보 합 계산 해 맥

보를 사용 다. 속도를 해 트 이닝 데이 (training data)를

맥 보 이 생 는데 가지 식 생

다. 나는 3.3.3.2 에 소개 맥 에 사용 맥시

스 맥 보 이 [ 2]이고, 다른 나는 3.3.3.3 에 소개

후보 합 계산에 사용 이 마커 맥 보 이 [

3]이다.

필드명 속성

문맥정보 생성옵션 String

문맥 시 스 String

바이오마커 문자열 String

표2문맥시 스기 문맥정보테이블정보

필드명 속성

문맥정보 생성옵션 String

바이오마커 문자열 String

문맥 시 스 String

빈도수 Integer

표3바이오마커기 문맥정보테이블정보

이 , 본 연구에 맥 시 스(Context Sequence)는

검사조직 규 고자 는 타겟 이 마커

(Target Marker) 함께 사용 이 마커 집합 별도

구분 자를 사용 여 나 자열 조합 새 운 자열

말 다.

이 불어 맥 보 생 [ 4] 같 며, 이

Page 41: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

30

마커 자열 맥 보 생 에 른 사용 다.

a)Raw_option 보고서에 기술된 표 형 그 로를 사용하여 조합

b)Cleaned_option Raw 표 형을 클린징한 문자열을 사용하여 조합

c)JE_option

문맥에 포함될 바이오마커 표 에서 규칙기반

표표 형 변환이 가능하면 해당 표표 형을

조합에 사용하고,불가능하면 클린징한 문자열을

사용하여 조합

표 4문맥정보 생성옵션

그림 19문맥정보 테이블 생성 시

[ 2,3]에 각각 맥 보 이 에 보를 장 는

식 [그림19]처럼 타겟 이 마커 에 맥시 스를

생 여 각각 이 식에 맞게 장 는 식 진행

다. 맥시 스 부분집합에 보 고 여 맥

시 스에 사용 이 마커명 집합 부분 집합 고 맥시

스를 생 여 맥 보 이 에 추가 다.

Page 42: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

31

3.3.1.4. 후보 자열 이 리

스 리 모듈 3.3.2 에 다루게 후보 생

모듈에 생 는 후보 자열 별도 이 [ 5]에 추가

여, 어떤 단계에 생 후보 자열인지 알 주는 보를 장

다. 3.3.3 에 다루게 모듈에 생

후보 자열 합 를 리 다. 이 이 추후 3.3.1.5

에 명 종 결 에 사용 다.

필드명 속성

바이오마커 문자열 String

시스템 표표 형 String

후보 생성 단계정보 String

후보 합성 Double

표 5후보 문자열 테이블 정보

3.3.1.5. 종 결

타겟 이 마커에 종 결 [그림20]과 같이

후보 생 단계에 라 달리 여 행 다. 이 , 합

종 이 마커 찾지 못 는 경우, 에러 구

(Error Tag) 출 다.

Page 43: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

32

그림 20최종 표표 형 결정 과정

앞 언 했 후보 자열 이 통해, 생

후보 자열이 어떤 단계에 생 었는지 인 다. 생 후보가

규 후보 자열이거나 UMLS exact 검색 통해 찾아진 자

열이라면 일 검색(Exact Matching) 통해 찾아지는 이

마커 시소러스 엔트리(entry)가 있는지 인 다. 이 단계에 매칭

(Matching) 는 시소러스 엔트리가 존재 는 경우 해당 엔트리

종 고 스를 종료 다.

앞 단계에 스가 종료 지 않았다면, UMLS검색 후보

자열과 사 자열 검색 후보 자열 상 후보 합

산 모듈 통해 를 계산 다 곳값 갖는 후보 자열

결 고 스를 종료 다.

Page 44: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

33

3.3.2. 후보 생

입 이 마커 자열에 후보를 생 는 법

[그림20]에 것처럼 4가지 법 이용 여 아래 같

종 후보 자열 리스트를 생 다.

a)규칙기반 후보 생성

b)확장 문자열리스트 상 UMLSexact검색기반 후보 생성

c)확장 문자열리스트 상 UMLSword검색기반 후보 생성

d)유사문자열 검색기반 후보 생성

3.3.2.1. 규 후보 생

규 후보 생 [그림21]과 같 자열 클린징

(Cleansing)과 3.3.1 에 이 마커 시소러스 장 해 사용

는 규 사용 다. 이 불어 2.1.2 에 다룬 면역 검사

보고 내용 특 고 약 20종 규 식 이용해

추가 인 후보를 생 다.

특히, 이 단계에 는 종 이상 이 마커를 합 여 사용

는 Shake 검사 시행 를 인식 규 식 이용

여, shake 검사 인식 여 별도 지

있도 다.

Page 45: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

34

그림 21문자열 클린징(Cleansing)과정

3.3.2.2. UMLS 검색 후보 생

UMLS 검색 후보 생 법 UMLS 검색 에 라

exact 검색과 word검색 법 나 며, 검색 자열인 쿼리

(Query)에 라 본 자열과 규 장법에 장 자

열리스트 나 어 3가지 종 UMLS 검색 후보 자열

이 생 다.

UMLS 검색 후보생 단계 경우, [그림22]처럼 쿼리에

결과인 CUI가 1개 이상 존재 면 6단계 부 스를 진행

다. 도에 사용 용어 명 [ 6] 신 다.

Page 46: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

35

이 , 속도향상 여 각 단계가 끝나면 스 리모듈에

결과를 송 여 스 종료 가능 인 다. [그림22]에

단 는 부분이 스 리 모듈에 진행 는 부분이다.

그림 22UMLS검색기반 후보생성 순서도

Page 47: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

36

용어 설명

UMLS검색에 사용되는 쿼리 바이오마커 표 형

UMLS검색옵션

에 한 최종 표표 형

에 한 표표 형 후보 리스트

검색옵션으로 찾은 의 UMLSCUI결과리스트

확장 바이오마커 시소러스

확장된 바이오마커 시소러스

CUI의 UMLS 표표 형 문자열

CUI의 UMLS동의어 검색결과 문자열 리스트

바이오마커문자열 에 한 문자열 클린징 결과

바이오마커문자열 에 한 규칙기반 문자열 확장리스트

표 6UMLS검색 련 용어 정의

스 리모듈 검색 이 word인 경우, 각 step에 yes

별 어도 그래도 지 않고 3.3.3 에

명 후보 모듈 통해 지

단 다.

3.3.2.3. 사 자열 검색 후보 생

사 자열 검색 후보 생 이 마커 시소러스 모든

엔트리 입 이 마커 자열 사이 자열 사도를 계산

여 사도 가 임계 (Threshold)를 어 면 해당 엔트리

후보 자열 추가 는 식 이루어진다.

본 연구에 는 자열 사도 종 별 결과 편향 에 단

Page 48: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

37

극복 해, Vladimir Levenshtein이 고안 edit distance

알고리즘인 Levenshtein distance[5,6,7]를 사용 ,

LCS(Longest Common Subsequences)[7,8,9] 이를

, Jaro-Winkler similarity[10,11]를 이용 , String

Subsequences Kernel similarity[12,13,14]를

지 4종 자열 사도 를 사용 다. 각 사도

에 간략 식 다 [ 7] 같 며 자 명 참고

헌 체 다.

종 류 수 식

Normalized

Levenshtein

distance

min

∙min∥∥∥∥max∥∥∥∥min∥∥∥∥

Normalized

LongestCommon

Subsequences

length

max ∥∥∥∥

Jaro-Winkler

similarity

∙ ′

′′

′′ ′ ∙ ∙

String

Subsequence

KernelSimilarity

표 7문자열 유사도 알고리즘 설명

Page 49: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

38

본 연구에 는 사 자열 단 는 각 사도

종 별 임계 를 여 사용 다[그림23]. 각 임계 는 실

험 통해 른 후보가 락 지 않도 여 롭게 다.

그림 23유사 문자열 검색기반 후보생성 과정

Page 50: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

39

3.3.3.

[그림24]처럼 UMLS 시맨틱타입 맥

를 통해 종 합 지 않 후보 자열 거

다 , 후보 합 계산 모듈 통해 각 후보 자열이

있는 를 스 리 모듈이 리 는

후보 이 에 추가 는 과 거쳐 종 스 리모듈에

해 이루어진다.

그림 24 표표 형 선정 과정 흐름도

3.3.3.1. UMLS 시맨틱타입

후보 자열이 UMLS 검색 후보 생 단계를 통해 추가

자열이라면 UMLS 시맨틱타입 를 통해, 추가 자열이 이

마커 고 있는 UMLS 시맨틱타입 갖는지 인 는 작

업 행 다. 본 연구에 이 마커 자열 가능 다고 고

시맨틱타입 [ 8]과 같다.

Page 51: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

40

시맨틱타입코드 설명T005 Virus

T028 GeneorGenome

T059 LaboratoryProcedure

T063 MolecularBiologyResearchTechnique

T085 MolecularSequence

T086 NucleotideSequence

T087 AminoAcidSequence

T088 CarbohydrateSequence

T109 OrganicChemical

T114 NucleicAcid,Nucleoside,orNucleotide

T115 OrganophosphorusCompound

T116 AminoAcid,Peptide,orProtein

T121 PharmacologicSubstance

T123 BiologicallyActiveSubstance

T124 NeuroreactiveSubstanceorBiogenicAmine

T125 Hormone

T126 Enzyme

T127 Vitamin

T129 ImmunologicFactor

T130 Indicator,Reagent,orDiagnosticAid

T192 Receptor

T195 Antibiotic

T197 InorganicChemical

표 8시맨틱타입 필터에 사용된 시맨틱타입 정보

3.3.3.2. 맥

맥 는 재 규 고자 는 이 마커 같이 사용

이 마커 보인 맥 보를 탕 , 해당 맥 보를 가질

있는 이 마커 만 추 내는 작업 다.

맥 는 [그림25] 같이 3.3.1.3 에 명했 스

리 모듈에 생 맥시 스 맥 보 이 에 존재 는

모든 맥시 스 키(key)에 해 맥 를 계산 다. 맥 는

입 맥시 스 맥시 스 맥 보 이 에 존재 는

Page 52: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

41

Key 맥시 스에 존재 는 이 마커 합집합 개 에

집합 개 를 사용 다.

산 맥 가 값 면 해당 Key 맥시 스가 갖는

이 마커 리스트를 PossibleMarkerList에 추가 여, 3.3.3.3 에

명 후보 합 계산모듈 PossibleMarkerList에 해

만 진행 다.

그림 25문맥기반 필터의 PossibleMarkerList생성 과정 흐름도

Page 53: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

42

3.3.3.3. 후보 합 계산

후보 합 자열 사도 맥

조합(Linear Combination) 통해 계산 다. 자열 사도는

3.3.2.3 에 사용 종 자열 사도를 조합 값

사용 다. 맥 경우, 3.3.3.2 에 사용 맥

사 나, 맥시 스에 도 를 보를

포함해 맥 를 계산 여 사용 다. 후보 합 계

산에 상 명 아래 식 체 다.

∙ ∙

∙∙

∙∪∩

식(1) ,,,는 합이 1이 도 다. 식(2)

는 재 처리 고 있는 이 마커 맥시 스인 입 맥시 스

이 마커 집합 뜻 다. 는 ∈를 만족 는 맥시

스 써, 는 이 마커 맥 보 이 에 이 마커

X를 키(Key) 여 찾 맥시 스 집합 결과 출 는 함

이다. 는 이 마커 맥 보 이 에 이 마커 B

Page 54: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

43

를 Key 여 찾 맥시 스 에 맥시 스 출 도

를 뜻 다. 는 이 마커 가 습데이 집합(Training

Set)에 견 도 를 뜻 다. 는 짧 맥시 스일

도 가 많아지는 편향 감소시키 값 , 다 식(4)를

이용 여 계산 다.

는 입 맥 시 스 에 속 는 이 마커 개 에

라, 개 가 작 값 는 함 이다.

는 자주 사용 는 이 마커는 맥 가 높 경향

여, 후보 이 마커 가 트 이닝 데이 에 나

타난 도 그값 이용 페 티(penalty) 를

는 함 써 식(5)를 이용 다. 는 실험 통해 가장 높 능

보이는 값 사용 다.

log

에 사용 값 자열 사도 맥

에 가 를 결 는 값 써, 본 연구에 는 실험 경험

에 라 트 이닝 데이 에 가장 높 능 출 는 값 이

용 다.

Page 55: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

44

IV. 실험 평가

4.1. 실험 경

본 연구를 해 울 병원 병리과 부 2008 부 2012

도 지 생 면역 보고 (보고 구별 드:PA) 약 4만 건 았

며, 그 2008~2011 도 자료를 시스 개 습데이

(Training data) 사용 고, 2012 도 자료를 시스 평가를

스트 데이 (Test data) 사용 다[ 9]. , 울 병원

병리과에 사용 는 이 마커 리스트를 요청 다 , 2명 병리

임상 가 시스 에 사용 이 마커 지 다.

학습 데이터 테스트 데이터

종류 SNUHPA08-11 SNUHPA12

개수 32,823 8,566

표 9실험 데이터 정보

보고 분 개 능 평가를 해, 2명 평가자가 모든

데이 에 해 보고 분 를 행 결과를 보고 이 마커명이

짐없이 알맞게 각각 드 분리 었는지를 보고 단

평가를 진행 다. 규 개 능 평가를 해 는 3명

병리임상 가 분리 어 나 이 마커 상 이 마커시

스 작업 태 (Tagging) 다. 이 , 타

이 불가능 마커 뿐만 아니라, 시스 에

이 아닌 이 마커 인 경우 에러 태 다.

Page 56: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

45

4.2. 실험 법

본 연구에 는 이 마커 규 규 처리 능 우

보이 해, 간단 이 마커 시소러스인 울 병원 이 마

커 리스트에 지 여 만든 이 마커 시소러스를 상

사 검색(dictionary lookup) 행 여 변

는 규 시스 베이스라인 시스 (Baseline System, 능

시스 ) 다.

, 이 마커 규 에 능 평가 시 후보생 단계별

능 향상 효과를 악 여, 규 후보생 통해 결

이 마커 결과인 Rule-based PT결과 UMLS exact 검색 통해

찾아진 후보가 후보 합 산 과 거 지 않고

출 경우인 UMLS-based PT결과, 후보 합 계산 통해

종 결 는 모듈 통해 출 결

과인 Score-based PT결과, 마지막 불가 태그

인 에러 태그가 출 경우인 Error Tag경우 나 어 각각

도(Accuracy)를 구 여 평가 다.

능 평가 법인 도 값 아래 식(4)를 이용 여 계산

며, TP, TN, FP, FN 각각 True Positive, True Negative, False

Positive, False Negative를 뜻 다.

Page 57: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

46

출 경우를 Positive 고, Error tag를

출 경우를 Negative 다. 보고 분 를 통해 분리

이 마커 찾 없거나, 타가 심 여

없 에만 Error tag를 출 사 에 므

, True Positive는 른 (Correct Preferred Term;

Correct PT) 출 경우를 뜻 며, False Positive는 잘못

(Incorrect Preferred Term; Incorrect PT) 규 여

출 경우를 뜻 다. 이 , error tag는 본 연구 시스 계상 후

보 합 산 모듈 거 경우에만 생 있 며, baseline 시

스 과 rule-based PT 단계, UMLS-based PT단계에 는 합

찾지 못 경우 Unresolved tag를 출 므 종 인

False Positive 경우는 Incorrect PT tag 경우 Unresolved tag

경우를 포함 여 카운트 다. True Negative는 르게 Error

tag가 출 경우를 뜻 며, False Negative는 규

가 가능 이 마커 인 경우임에도 불구 고 error tag를 출

경우 다.

Page 58: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

47

4.3. 실험 결과

[ 10] 베이스라인 시스 에 능 스트 에 나타난

이 마커 종 를 후보 생 단계별 도를

결과를 나타낸 것이고, [ 11] 이 마커 도 를

도를 결과를 나타낸 것이다. [ 10]과 [

11] 그래 나타낸 것 각각 [그림26],[그림27]과 같다.

베이스라인 시스 스트 데이 에 존재 는 이 마커 종

458개 에 108개 에 해 만 히 규 를

고, 각 도 지 고 했 에는 체 40,304건 이

마커 38.01%인 15,320건 이 마커 만 규 를

공 여 종 도 0.2358, 도 0.3801에 그쳤다.

면, 본 연구 시스 Rule-based PT 단계에 이미 종

55.02%인 252개를 규 고, 체 도 상 도

65.64%인 26,457건 르게 규 여 출 다. 종

414개 종 게 규 함 써 체 39,600

건 게 규 여, 종 도 0.9039, 도

도 0.9825를 여 베이스라인 시스 보다 2 이상

높 능 보임 알 있었다.

표 10베이스라인 시스템의 정확도 시스템 단계별 정확도 (표 종류기 )

Page 59: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

48

표 11베이스라인 시스템의 정확도 시스템 단계별 정확도 (빈도수 기 )

그림 26시스템 단계별 바이오마커 표 처리 양상 그래 (표 종류 기 )

그림 27시스템 단계별 바이오마커 표 처리 양상 그래 (빈도수 기 )

Page 60: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

49

V. 고찰

본 시스 모든 이 마커 에 시스 결과를 출 면

규 가 불가능 에 해 는 Error Tag를 출 므 , Error

Tag 출 시스 결과 들만 검토 여 이 마커에

지 여 주면 임상 에 나타나는 이 마커

상당 부분 처리 있다.

특히, Error Tag를 분 해 본 결과, 시스 이 없는 경

우 Error Tag를 출 에, 새 운 이 마커명

에 도 가 커 Error Tag에 포함 이 마커 도가

높 것 나타났다.

이는 Score-based PT 에러 양상과도 같 데, [그림28]처럼 소

마커명에 도 가 크게 나타나고 있 알 있다.

그림 28Score-basedPT단계의 에러 표 별 빈도수

Page 61: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

50

VI. 결

본 연구에 는 병리진단 근거 써 질 별 이 마커 양 통계

보를 공 여, 량 병리보고 부 이 마커

보를 추출 여 데이 생 는 법 안 다.

본 연구 시스 병리보고 구조 특 Context-free

Grammar 일종인 BNF 여 보고 를 분 고, 이를 통해

1차 데이 를 상 이 마커 규 를 통해 다양

게 이 마커 나 변 는 규

과 거쳐 종 구조 이 마커 보를 출 다.

규 를 해 후보 생 과 후보 과 거 게 며, 후보

합 단 해 면역검사진단 트 개 에 착안 여 도입

맥 보를 자열 사도 보 함께 사용함 써 타

지 가능 시스 안 다.

시스 능평가 결과, 이 마커 단 규 도가

0.9039, 이 마커 도 단 규 도가 0.9825 병리보고

부 이 마커 보를 상당 게 추출 있

보 다.

추후 후속 연구를 통해, 존 이 마커 리스트에 포함 어 있지

않 새 운 이 마커 자동 견 시스 등 추천 능 추

가 이 마커명뿐만 아니라 이 마커 검사 결과 지 맥 보에

포함 후보 합 계산 통해 시스 도를 높이고자 다.

본 시스 존에 생 자료를 탕 이 마커 보를 추

Page 62: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

51

출 는 데에만 사용 있는 것이 아니라, 이 마커 시험결과를

보고 작 생 있는 타를 이 실시간 자동

타 능 장 써도 사용 있 므 그 용

도가 높 것 다.

Page 63: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

52

참 고 헌

1. Cochrane AL. Effectiveness and Efficiency: Random

Reflections on Health Servies. London: Nuffield Provincial

Hospitals Trust. Reprinted in 1989 in association with the

BMJ. Reprinted in 1999 for Nuffield Trust by the Royal

Society of Medicine Press, London, ISBN

1-85315-394-X (1972)

2. PathPedia, LLC, Available from: http://www.pathpedia.com/

3. BACKUS, John. Can programming be liberated from the

von Neumann style?: a functional style and its algebra of

programs. Communications of the ACM, 1978, 21.8:

613-641.

4. Feigenbaum, Edward A., Avron Barr, and Paul R. Cohen,

eds. The handbook of artificial intelligence. New York:

Addison-Wesley, 1989.

5. A. Levenshtein, Binary codes capable of correcting

deletions, insertions, and reversals, Soviet Phys, Dokl.,

vol. 10, pp. 707-710, 1966

6. NAVARRO, Gonzalo. A guided tour to approximate string

matching. ACM computing surveys (CSUR), 2001, 33.1:

31-88.

7. WAGNER, Robert A.; FISCHER, Michael J. The

Page 64: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

53

string-to-string correction problem. Journal of the ACM

(JACM), 1974, 21.1: 168-173.

8. ILIOPOULOS, Costas S.; SOHEL RAHMAN, M. Algorithms

for computing variants of the longest common

subsequence problem. Theoretical Computer Science,

2008, 395.2: 255-267.

9. V. chvatal, D. Sankoff, Longest common subsequences of

two random sequences, J.Appl.Probab., pp.306-315, 1975.

10. Jaro, M. A., Advances in record linkage methodology as

applied to the 1985 census of Tampa Florida, Journal of

the American Statistical Association 84 (406): 414–20.

11. Jaro, M. A., Probabilistic linkage of large public health

data file, Statistics in Medicine 14 (5–7): 491–8.

12. Winkler, W. e., String Comparator Metrics and Enhanced

Decision Rules in the Fellegi-Sunter Model of Record

Linkage, Proceedings of the Section on Survey Research

Methods (American Statistical Association): 354–359.

13. COHEN, William W., et al. A Comparison of String

Distance Metrics for Name-Matching Tasks. In: IIWeb.

2003. p. 73-78.

14. LODHI, Huma, et al. Text classification using string

kernels. The Journal of Machine Learning Research,

2002, 2: 419-444.

Page 65: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

54

Abstract

Extracting Biomarker Information

From Pathology Reports

Using Natural Language Processing

Jeongeun Lee

Interdisciplinary Program of Bioengineering

The Graduate School

Seoul National University

Obtaining the statistics of biomarker test results for the diseases can

improve the quality of evidence based medicine, since biomarker assay

is critical evidence for histopathological diagnosis of testing tissue.

Currently, data curation for this purpose based on large data sets is

painstaking process because the majority of the work needs manual

analysis of published data.

Thus, as a foundation technique, we developed a method extracting

biomarker information from immunohistochemical pathology reports. The

purpose of the Biomarker Information Extraction System is to make

structured data, which has normalized biomarker expressions and the

test results from free-text of immunohistochemical pathology reports.

For this, the system run the Report Analyzer which has the grammar

Page 66: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

55

we defined to parse the pathology reports so that to get intermediate

structured data that include biomarker name field and test result field.

After that, the Biomarker Name Normalizer converts the biomarker

expressions, which might have been variously written for the same

concept, into the system preferred terms.

To solve the problem that a simple normalizer with dictionary lookup

may not recognize biomarker expressions with spelling errors or can

not correct the spelling errors appropriately, the system normalizes the

terms with the Preferred Term Candidates Creator, followed by the

Preferred Term Selector.

The Preferred Term Candidates Creator module creates the possible

candidate preferred terms for the target biomarker expression using the

heuristic rule-based method, the UMLS searching-based method, and the

string similarity-based method.

The Preferred Term Selector chooses the final preferred term based on

the candidate evaluation that uses the string similarity and the

conditional probability of a candidate given own Context Information,

which is information about a set of biomarkers that are tested together

on the same tissue.

We evaluated the system with 8,566 immunohistochemical pathology

reports recorded at 2012 from the Seoul National University Hospital,

which contain 458 biomarker patterns and 40,304 expressions for that

patterns in total. In the evaluation, the Biomarker Name Normalizer

scored accuracy based on types of patterns and frequency of 0.9039,

0.9825, respectively.

Page 67: Disclaimer - SNUs-space.snu.ac.kr/bitstream/10371/122431/1/000000016796.pdf · 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에

56

Keyword: Natural Language Processing, Information Extraction, Spelling

Error Correction, Biomarker, Pathology Report

Student Number: 2012-21020