Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
저 시-비 리- 경 지 2.0 한민
는 아래 조건 르는 경 에 한하여 게
l 저 물 복제, 포, 전송, 전시, 공연 송할 수 습니다.
다 과 같 조건 라야 합니다:
l 하는, 저 물 나 포 경 , 저 물에 적 된 허락조건 명확하게 나타내어야 합니다.
l 저 터 허가를 면 러한 조건들 적 되지 않습니다.
저 에 른 리는 내 에 하여 향 지 않습니다.
것 허락규약(Legal Code) 해하 쉽게 약한 것 니다.
Disclaimer
저 시. 하는 원저 를 시하여야 합니다.
비 리. 하는 저 물 리 목적 할 수 없습니다.
경 지. 하는 저 물 개 , 형 또는 가공할 수 없습니다.
공 사 논
자연어처리 법 이용
병리보고 부
이 마커 보 추출
Extracting Biomarker Information
From Pathology Reports Using Natural
Language Processing
2014 2월
울 원
동과 이 엔지니어링 공
이
자연어처리 법 이용
병리보고 부
이 마커 보 추출
지도 진 욱
이 논 공 사 논 출함
2013 12월
울 원
동과 이 엔지니어링 공
이
이 사 논 인 함
2013 12월
원 장 (인)
부 원장 (인)
원 (인)
i
국
병리진단 검체에 이 마커 시험 결과를 탕 이루어
지므 , 질 별 이 마커 양 양상 데이 보는 근거 심
질 향상에 여 있다. 재 이러 보를 얻 해
는 출 헌 자료를 직 분 여야 신뢰도 있는 자료를 얻
있 에, 량 데이 를 양 악 가
어 운 실 이다. 라 본 논 량 병리보고 부 질
별 이 마커 양 보를 분 써, 면역
검사보고 부 이 마커 보를 추출 는 법에 해
다.
본 연구는 면역 검사보고 를 입 아 이 마커
과 그에 해당 는 결과 보를 구조 여 출 는 시스
개 목 다. 이를 해, 본 시스 사 에 병
리보고 작 법 탕 구 분 행 여 간 구조
데이 를 얻는다. 그다 , 이 마커 규 를 통해 다양
이 마커를 시스 변 여 종
이 마커 보를 생 다.
특히, 단 사 검색 이용 변 타가
포함 이 마커명에 인식 없다는
해결 해, 후보생 과 과 과 거쳐
타 검 (檢正)이 가능 규 를 시도 다.
ii
후보생 모듈 병리 보고 특 고 규 후보생 ,
UMLS(Unified Medical Language System) 데이 베이스 검색
통 후보생 , 사 자열 검색 통 후보생 과 통해 후
보 생 다.
모듈 동일 조직에 같이 검사 이 마커 집
합 맥 보 주었 해당 후보가 함께 사용
조건부 과 자열 사도를 후보 합 이용
여 종 시스 결 다.
시스 능평가를 해 울 병원에 2012 도에 생
면역 검사보고 8,566건에 해 시스 실행해 본 결과,
이 마커 규 이 마커 단 도가 0.9039, 이
마커 도 단 도는 0.9825 높 능 다.
주요어: 자연어처리, 보추출, 타 , 이 마커, 병리보고
번: 2012-21020
iii
목 차
List of tables
1. 울 병원 면역 검사보고 / 항목 ··············8
2. 맥시 스 맥 보 이 보 ···············································29
3. 이 마커 맥 보 이 보 ···············································29
4. 맥 보 생 ···················································································30
5. 후보 자열 이 보 ·······································································31
6. UMLS 검색 용어 ·································································36
7. 자열 사도 알고리즘 명 ·······························································37
8. 시맨틱타입 에 사용 시맨틱타입 보 ·····································40
9. 실험 데이 보 ·····················································································44
10. 베이스라인 시스 도 시스 단계별 도(
종 ) ·············································································································47
11. 베이스라인 시스 도 시스 단계별 도( 도
) ·················································································································48
iv
그 림 목 차
List of figures
그림 1. Pathpedia 스 공 면 시 ····················································2
그림 2. 이 마커 다양 시 ·····················································3
그림 3. 이 마커 타 검 어 움 ·························································4
그림 4. 본 연구 시스 목 ·········································································5
그림 5. 면역 검사보고 부분 구 시 ·····························9
그림 6. 면역 검사보고 리스트/ 이 식 구조 시 ·················10
그림 7. 이 마커 검사 트 시 ·····················································13
그림 8. UMLS 다 용어사 내용 통합 여 보여주는 시 ·····16
그림 9. 타시소러스 용어 식별자 부여 시 ·········································17
그림 10. 시맨틱 트워크 범주 간 계 일부 ··········································18
그림 11. 공 에 른 UMLS 검색 결과 차이 ······························21
그림 12. 이 에 른 UMLS 검색 결과 차이 ··························21
그림 13. 다 검색 결과 에 별해야 는 시 22
그림 14. 이 마커 보추출 시스 구 다이어그램 ······················23
그림 15. 면역 검사보고 Backus-Naur Form(BNF) ·················24
그림 16. 보고 분 도 ··································································25
그림 17. 이 마커 시소러스 장 과 름도 ······································27
v
그림 18. 이 마커 시소러스 장 시 ····················································28
그림 19. 맥 보 이 생 시 ····························································30
그림 20. 종 시스 출 결 과 ··························································32
그림 21. 자열 클린징 과 ··········································································34
그림 22. UMLS 검색 후보생 도 ················································35
그림 23. 사 자열 검색 후보생 과 ··········································38
그림 24. 후보 과 름도 ··············································39
그림 25. 맥 PossibleMarkerList 생 과 름도 ·······41
그림 26. 시스 단계별 이 마커 처리 양상 그래 ( 종 ) 48
그림 27. 시스 단계별 이 마커 처리 양상 그래 ( 도 ) ··48
그림 28. Score-based PT 단계 에러 별 도 ·························48
vi
목 차
Contents
I. ····················································································································1
1.1. 연구 경 요 ············································································1
1.2. 연구 목 ····································································································5
1.3. 연구 범 ····································································································6
II. 경 ···················································································································8
2.1. 면역 검사보고 ················································································8
2.1.1. 구조 특 ························································································9
2.1.2. 내용 특 ····················································································11
2.1.2.1. 이 마커명 다양 ················································11
2.1.2.2. 이 마커명 타 ························································11
2.1.2.3. 이 마커명 속 불용어 ··············································12
2.1.2.4. 이 마커명 특 자 다양 ····························12
2.1.2.5. 이 마커 검사 트 존재 ····································13
2.2. MeSH(Medical Subject Headings) ················································14
2.3. UMLS(Unified Medical Language System) ·······························15
2.3.1. 타시소 스(Metathesaurus) ···················································16
vii
2.3.2. 시맨틱 트워크(Semantic Network) ·····································17
2.3.3. UMLS 검색 ·····················································································18
2.3.4. UMLS Terminology Services API 2.0 ································19
2.4. UMLS 이용 용어 검색 ···················································20
2.4.1. 공 에 른 검색결과 차이 ········································20
2.4.2. 이 (Hyphen) 에 른 검색결과 차이 ·················20
2.4.3. 다 후보 결과 출 인 모 ··································22
III. 이 마커 보추출 시스 ·····································································23
3.1. 체 시스 구 ···············································································23
3.2. 보고 분 ·························································································24
3.3. 이 마커 규 ·················································································26
3.3.1. 스 리 모듈 ········································································26
3.3.1.1. 이 마커 시소러스 장 ····················································27
3.3.1.2. 이 마커 시소러스 업데이트 ············································28
3.3.1.3. 맥 보 이 생 ····························································29
3.3.1.4. 후보 자열 이 리 ································31
3.3.1.5. 종 시스 출 결 ··························································31
3.3.2. 후보 생 ····································································33
3.3.2.1. 규 후보 생 ································································33
viii
3.3.2.2. UMLS 검색 후보 생 ··················································34
3.3.2.3. 사 자열 검색 후보 생 ······································36
3.3.3. ··············································································39
3.3.3.1. UMLS 시맨틱타입 ························································39
3.3.3.2. 맥 ··········································································40
3.3.3.3. 후보 합 계산 ····································································42
IV. 실험 평가 ·································································································44
4.1. 실험 경 ·································································································44
4.2. 실험 법 ·································································································45
4.3. 실험 결과 ·································································································47
V. 고찰 ··················································································································49
VI. 결 ·················································································································50
참고 헌 ·················································································································52
Abstract ················································································································54
1
I.
1.1. 연구 경 요
통 에 진단 료는 부분 단편 인 임상 경험이나 질
병 커니즘(Mechanism)에 근거 추 에 라 결 어 다. 그러
나 재 계에 는 근거 심 (Evidence-based medicine)
요 이 커짐에 라, 모든 임상 단 신 임상 연구 결과를
탕 과 근거 에 결 는 식이 생겼다. 자연히 임상
사 결 연구에 근거 사용 있는 보를 공
있는 시스 에 요구도 생겨났다[1].
이는 병리 과 료진 사이에 도 나타나고 있다. 특히, 병리 진
단 결 , 진단과 이 마커 사이 계를 진단 근거
사용 고자 는 요구가 있다. 이를 충족 스 일
[그림1]과 같이 Pathpedia[2]에 Immunopedia 스를 통해
각 질 군 별 시행 는 면역검사 종 면역검사별 양 보
를 공 여 병리 자가 면역검사를 고자 참고 자료 용
있도 고 있다.
다만, Immunopedia는 출 논 자료를 탕 인 사용해
이 마커 보를 리함에 라 시간과 노 이 요 뿐만 아니라,
이에 른 이 마커 사용 황(Trend) 악에 시간 지연이 생 는
가 있다. , 국 자료를 탕 므 국인 특
자료 보 어 우며, 논 나 내용 탕
2
그림 1Pathpedia서비스 제공 화면 시 (출처:http://pathpedia.com)
보가 생 므 사 질 이 마커 종 가 어
있고 신 임상 결과 보 도 어 다.
본 연구에 는 이를 해결 해, 병리과에 자
생 조직면역 검사자료에 이 마커 보를 추출 여, 추후
임상진이 국에 료 효과를 검증 고 자 별 시
근거 사용 있도 는 데에 었다.
지만 이 마커 시험 결과 보를 자연어 함에 라, 다른
분야에 도 나타나는 자연어 인 통계 처리 이 동일
게 존재 다. 즉, 산입 담당자에 라 같 개 이 마커라
도 약어, 동 어 등 다양 고 있 며, 과 에
도 이 이나 공 삽입 여부, 타 생 여부 등과 같이 용어 택
차이뿐만 아니라 같 용어라도 다르게 는 경우가 존재 다.
이 게 동일 이 마커에 이 다양 게 존재 에
[그림2] 양 도출 해 는 다르게 이 마커
명 인식 고 나 통일 규 가 요 다.
3
그림 2바이오마커의 다양한 표 형 시
타는 2가지 분 있는데, 나는 타가 난 이 실
존재 는 다른 이 마커명과 일 는 경우이고, 다른 나는 타
가 난 이 실 존재 는 다른 이 마커명과 일 지 않는 경우
이다. 개 후자 타 검 난이도가 낮 작업이라 생각 있
나, 자 경우뿐만 아니라 후자 경우에 있어 도 타 에
심 주 가 요 다. 냐 면 면역 검사보고 에 이
마커 시 생 타 경우, 이 마커 자열 특 상 이가
짧고 자(Character) 차이 사 이 마커 자열이 다양 게
존재[그림3] 고 있어 원래 도 이 있는 후보 자열이
다양 게 존재 게 다. 보통 일상생 에 사용 는 장이나 일
속 타 에는 앞, 뒤 나 는 단어를 통해 맥 악 여
게 는데, 면역 검사보고 경우 이 마커 검사결과만
간략 게 므 타 검 에 사용 있는 보가 이다.
4
그림 3바이오마커 오타 검정의 어려움의
면역 보고 에 이 마커명 타 가장 본
인 법 는 존 이 마커 리스트에 존재 지 않는 이 마커
이 나타날 마다 작업 지 여 규 이
작 여 사용 는 법이 있다. 는 새롭게 나타난 이 마커
UMLS(Unified Medical Language System)에 검색 여 찾
아지는 결과 용어(Preferred Term)를 지
도 도 있다.
지만 작업 맵 이 작 는 것 시간이 많이 소요
며, UMLS 검색 통 법 검색어가 지 않 면 결과가
생 지 않 뿐만 아니라 다른 미를 갖는 용어가 검색 결과 출
는 경우가 있어 이를 분 추가 인 작업 요 여
많 시간과 노 요 게 다.
본 연구에 는 앞 언 들 해결 해 병리보고
특 고 처리 장 통 후보 생 , 주변 이
마커 보를 이용 과 통해 시간과 노
많 양 이 마커 검사 결과 보를 추출 있는 시스
안 다.
5
1.2. 연구 목
본 논 에 는 자연어 병리보고 부 이
마커 보를 추출 는 법 안 다.
병리 에 특 처리 후보생 법
통해 다양 이 마커명 나 규
여 구조 보 출 [그림4] 는 법 시 다.
그림 4시스템의 목
특히, [그림3]에 명 이가 짧 사 자열이 많아 타
이 어 운 이 마커 타 해, 맥 보( 나 검사
조직 시험 해 같이 사용 이 마커 집합 보)를 사용 여
타 검 능 높이고자 다.
본 연구 가 다 과 같다.
“병리임상 에 특 처리 이 마커 맥 보를 이용
면 이 마커 보 추출 능 높일 있 것이다.”
6
1.3. 연구 범
본 연구에 는 자연어 이 마커 시행결과를 싱
(Parsing) 여 이 마커명이 부분과 양 여부 이
부분 구분 여 검사조직별 어떤 이 마커가 사용 었는지 1차
구조 를 시행 다 , 추출 보를 규 고자 다. 다만,
이 마커 시행결과인 양 여부 에 해 는 규 지 않고,
이 마커명에 해 만 규 는 것 범 를 다.
추출 이 마커는 MeSH(Medical Subject Headings) 용어체계
인 Main heading(MH) 사용
여 규 는 것 목 고, 해당 이 마커에 MeSH
용어가 존재 지 않는 경우 UMLS(Unified Medical Language
System) 용어체계 규 여 국 통용
는 용어 규 있도 다. 만약 UMLS 용어체계에도 존
재 지 않는 경우에는 병리임상 재량에 라
다.
본 연구에 는 이 마커 타를 고 규
여 단계에 “ 이 마커 맥 보
(Biomarker Context)”를 사용 다. 이 마커 맥 보는 새롭
게 용어 써, 나 조직 검사에 같이 사용 이 마커 집
합 뜻 다.
본 논 구 다 과 같다. 2장에 는 연구 재료 써 연구에 사
용 데이 인 울 병원 면역 검사보고 특 과 UMLS
7
검색 통 검색 특징에 해 소개 다. 3장에 는 본 연
구를 통해 개 이 마커 보 추출 시스 에 해 명 고, 4
장에 는 시스 통 보 추출 능 평가 법과 결과를 시
다. 5장에 는 고찰, 6장에 는 결 다.
8
II. 경
2.1. 면역 검사보고
울 병원에 는 자 검사조직에 해 이 마커 검사를
시행 경우 그 병리 독 결과를 면역 검사보고 식 생
다. 생 면역 검사보고 는 항목에 해당 는 보를 얻
추가 인 처리 요 여부에 라 부분과 부분 나
있다. 각 부분에 포함 항목 [ 1]에 나열 다.
정형
항목
면역화학검사보고서
번호(ID)의사명
환자명 수일시
성별 산입력자
나이 보고일
진료과/병동 병리 독인
환자번호
비정형
항목
검사조직의
외과병리보고서번호(ID)
검사조직의 바이오마커
검사 결과
표 1서울 학교병원 면역화학검사보고서의 정형/비정형 항목
이 , 부분에는 동일 조직에 해 다 이 마커 시행
결과가 포함 있 며, 다 조직에 검사가 포함 있다.
부분에 구체 인 구 시는 [그림5] 같다. 리스트 타
입과 이 타입과 자 명 2.1.1 구조 특 에 명
다.
9
그림 5면역화학검사보고서의 비정형부분의 구성 시
본 연구에 는 이 마커 보 추출에 처리 과 에 고 면
용 구조 특 과 내용 특 리 다.
2.1.1. 구조 특
본 연구에 는 울 병원 면역 보고 부분
특징 크게 가지 식 나 었다. [그림6]
가지 식인 리스트타입 보고 이 타입 보고 시를 보여
다. 그림 보면 알 있듯이, 리스트타입 보고 는 이 마커명
과 그에 결과가 과 같 구분 자를 는 것이
고 이 타입 보고 는 이 마커명과 그 결과가 식 구분
자를 통해 는 보고 이다. 즉, 이 마커 그에 결과는
10
-구조 식(Semi-structured type) 고 있 알 있다.
그림 6(a)는 리스트타입의 면역화학보고서 시,(b)는 테이블타입의
면역화학보고서 시임
본 연구에 는 각 보고 식에 이 마커명과 그 결과를 구분
사용 구분 자를 “ 식구분 자”라고 다. 식구분
자는 다시 새 운 이 마커 시험결과를 나타내 개행 구분 자
이 마커명과 결과를 나타내 결과구분 자 나 있
다. 리스트 식 보고 에 사용 는 식구분 자는 그 종 가 다양
지 않 나, 이 식 보고 에 사용 는 식구분 자는 식어
같 므 다양 게 나타날 있 에 주 여야 다.
11
2.1.2. 내용 특
내용 특 는 처리 과 에 이 마커명
특 리 다.
2.1.2.1. 이 마커명 다양
임상 를 분 해보면, 이 마커명 가지
동일 게 지 않 알 있다. 국 용어 체계에 사용
는 이름 사용 는 경우는 드 며, 약어 같이 짧게
있는 법 주 사용 고 동 어 를 사용 도
다. 특 이 마커 경우 동 어 간 자열 사도가 극히
낮 있 므 이 주 여야 다.
2.1.2.2. 이 마커명 타
보고 입 사람이 입 게 므 , 그에 른 타가 생
게 다. 약어를 주 사용 는 상황에 나 자에 만 타
가 생해도 다른 미 이 마커명 인식 있
에 짧 이 이 마커명 경우 타여부를 인식 는 것
이 어 다.
12
2.1.2.3. 이 마커명 속 불용어
이 마커 결과는 자 조직검사 슬라이드별 입 며, 시행
결과 질(Quality)에 라 동일 이 마커를 다시 검사 는 경
우가 있다. 이러 조직검사 시행에 고 사항 이 마커명
과 함께 는 경우가 있는데, 이는 본 연구 시스 과 같이 이 마
커명별 통계 보를 생 고자 는 경우 불용어(Stop Word)
생각 있다.
본 연구에 는 크게 4가지 불용어 식 여 처리에 사
용 고 있 며, 다 과 같다.
i.조직슬라이드 번호 ii. 미경 배율
iii.반복시행 여부 iv.바이오마커 회사
2.1.2.4. 이 마커명 특 자 다양
이 마커 이름 에는 마 자 라틴 자가 사용 는 경우
가 있다. 그런데 이 자 가 국 용어체계에 도 다양
게 는 경우가 있 에, 처리 과 에 이 미리 고
해주어야 일 인식 있다.
13
2.1.2.5. 이 마커 검사 트(Order set) 존재
병리과에 는 특 진단 해 자주 사용 는 이 마커 검사
집합이 존재 다. 이를 이 마커 검사 트(Order Set)라
부르는데, [그림7]처럼 모든 진단 종 별 검사 트를 구
해놓지는 않고 자주 생 는 검사에 해 만 이러 트를
생 여 사용 다.
그림 7바이오마커 검사 오더 세트 시
그런데 검사 트를 지 여 사용 지 않아도, 특 이
마커는 같이 사용 는 이 마커 집합이 존재 는 경우가 있다. 이
러 특 이 마커 보 추출에 이용 여, 본 연구에
는 나 조직(Tissue) 검사 해 같이 사용 는 이 마
커 집합 보를 이 마커 맥 보(Biomarker Context)이라
다.
###
###
###
14
2.2. MeSH(Medical Subject Headings)
이번 연구에 이 마커 MeSH 용어를 사용
고자 다.
MeSH는 미국 국립 도 (the National Library of Medicine,
이 NLM)에 작 통 용어 사 써, 용어 개 에 른 계
구조 작 여 헌 검색에 사용 다. 재 헌검색
에 리 사용 고 있는 NLM National Center for Biotechnology
Information(NCBI)에 공 는 PubMed 검색시스 에 헌색인
에 사용 는 용어 사 이 MeSH이므 , 시스 사용자 편 를 해
시스 MeSH를 사용 다.
MeSH는 용어 Main heading(MH), Preferred
entry term(PEP), Name of Supplementary Concept(NM), Print
entry term(EP), Non-print entry term(EN) 등 나 고
있 며, 본 연구에 는 MeSH 트리 상 에 는
MH 사용 고자 다.
15
2.3. UMLS(Unified Medical Language System)
본 연구에 는 이 마커 있는 MeSH
용어가 존재 지 않는 경우, UMLS Metathesaurus preferred
name(PN) 사용 다.
UMLS는 NLM에 이 과 건강분야 언어를 이해 는 컴퓨
시스 개 에 사용 있도 작 통합 용어 시스 이다.
UMLS는 타시소 스(Metathesaurus) 시맨틱 트워크
(Semantic Network), SPECIALIST Lexicon & Lexical Tools
구 어 있다. 타시소 스는 100개 이상 용어 사 부 만
개 이상 생명 개 담고 있는 통합 사 이며, 시맨틱 트워크
는 133개 범주 54개 범주간 계(relationship)를 여
생명 분야에 라벨링(Labelling) 행 내용 담고 있다.
SPECIALIST Lexicon & Lexical Tools 자연어 처리에 요 어
보 그램 포함 다.
본 연구에 는 타시소 스 시맨틱 트워크, UMLS API를 이용
검색 능 사용 므 , 이에 내용 자 히 살펴보겠다.
16
2.3.1. 타시소 스(Metathesaurus)
타시소 스는 MeSH용어사 포함 100개 이상 용어사
통합 용어 시스 이며, 용어 개 별 Concept unique
identifier(CUI)라 불리는 식별자를 부여 다.
를 들어, “atrial fibrillation(심 동)” 아래 [그림8]과 같이
각 다른 고 있는 다 용어사 내용 통합
여 나 CUI 에 동 어 개 보여 다.
그림 8UMLS의 다수의 용어사 내용을 통합하여 보여주는 시
나 용어를 UMLS에 추가 에는 UMLS 타시소 스 4
가지 벨 구조에 른 내용이 추가 다. 각각 Concept Unique
Identifiers(CUI), Lexical(term) Unique Identifiers(LUI), String
Unique Identifiers(SUI), Atom Unique Identifiers(AUI) 써, CUI
는 앞 명 같이 미(Concept)를 식별 식별자이
고 LUI는 어 인 변이를 나 인식 해 부여 식별자이다.
SUI는 소 자, 구 차이 등 모든 어 변이 별 나 식
별자를 부여 것이고 AUI는 나 용어 이 소스사 (source
vocabularies) 부 UMLS에 추가 , 각 별 부여 식별
자이다. [그림9 참고]
17
그림 9 메타시소로스의 용어
식별자 부여 시
2.3.2. 시맨틱 트워크(Semantic Network)
시맨틱 트워크는 133개 범주 54개 범주 간 계
(relationship)를 여 생명 분야에 라벨링(Labelling)
행 내용 담고 있다. 133개 범주는 크게 개체(Entity) 사건
(Event) 나 있 며, 그룹별 계 구조 구 다. 각각 범
주는 고 식별자를 가지고 있 며, 계 구조상 를 식별
번 도 함께 가지게 다.
18
그림 10시맨틱네트워크의 범주 간 계 일부
2.3.3. UMLS 검색
UMLS 검색 CUI, LUI, SUI, AUI과 같 식별자를 이용 검색
과 단어를 이용 검색 나 있 며, 단어 검색 아래처럼 7
가지 검색 통해 검색 행 있다.
l exact l words
l approximate l normalizedWords
l leftTruncation l normalizedString
l rightTruncation
exact 검색 경우 검색어 체 일 는 동 어 는
갖는 CUI를 검색결과 출 고, words 검색 경우
검색어 사 속 들 공 단어 구분 여 에
상 없이 검색어 단어들 다 포함 고 있는 CUI를 검색 결
19
과 출 다. approximate 검색 공 분리 단어별
사 단어를 포함 이 있는 CUI를 검색 결과 출 다.
2.3.4. UMLS Terminology Services API 2.0
NLM에 는 웹 통해 UMLS Terminology Service를 공 여
사용자가 쉽게 UMLS 용어를 검색 있도 고 있 며, 동일
능 는 API 같이 공 고 있다. 재 포 고 있는
API는 2.0버 써 JDK6 이상 개 경에 구동 있게
어 있다.
20
2.4. UMLS 이용 용어 검색
이 마커 에 가장 단 규 법 UMLS
단어 검색 능 이용 규 가 있다. 지만 UMLS 검색 계
인해 규 상 에 라 시간과 노 이 많이 요 있
다. 이 같 쿼리 에 른 검색 결과 차이를 아래 시를
통해 명 겠다.
2.4.1. 공 에 른 검색결과 차이
임상 에 는 CD 15 같이 자 자 사이에 공 삽입 여
사용 고 있 나, UMLS에 그 모든 검색 사용 여 검색
여도 검색결과가 나 지 않는다. 지만 공 삭 고 검색 면 검
색결과가 나 다. 이 듯 공 에 라 검색결과가 다르게 나타
날 있다[그림11참고].
2.4.2. 이 (Hyphen) 에 른 검색결과 차이
앞 2.4.1. 처럼 임상 에 는 CD-31 사용 고 있
나, CD31 검색해야 CUI가 검색 다[그림12참고].
21
그림 11공백 유무에 따른 UMLS검색 결과의 차이
그림 12하이 유무에 따른 UMLS검색 결과의 차이
22
2.4.3. 다 후보 결과 출 인 모
[그림12]처럼 exact match 검색 이용 에 4개 검색결
과가 나 는 것처럼, 나 검색어에 해 검색 결과가 여러 개 출
는 경우가 있다. 이 에는 검색 결과 에 해당 이 마커
에 지 별도 알고리즘 돌리거나
작업 통해 지 해 주어야 다. 특히, exact 검색 는 찾아지
지 않는 경우, word 검색 검색 거나 approximate 검색
후보를 찾아야 는 데 이 경우 결과가 상당히 많아지게 어 그
만큼 모 이 커지고 작업 시 소요 는 시간이 늘어나게 다.
[그림13]
그림 13그림 13다수의 검색 결과 에서 표표 형을 선별해야하는
시.(검색어:TG,정답 표표 형:Thyroglobulin)
23
III. 이 마커 보추출 시스
3.1. 체 시스 구
이 장에 는 본 시스 체 구 에 해 다. 보추출
단계는 크게 2단계 면역 보고 스트를 분 여 이 마커
명과 시행 결과를 인식 다. 각 단계에 해 는 다 에 자 히
도 다. [그림14]는 본 연구에 안 이 마커 보 추
출 시스 체 구 다이어그램 나타낸 것이다.
그림 14바이오마커 정보추출 시스템의 구성 다이어그램
24
3.2. 보고 분
보고 분 는 면역 검사보고 에 자연어 이 마커
시험 결과를 입 아 이 마커명 부분과 그에 결과 부분
나 는 일 다. 본 시스 에 는 2.1.1.에 언 구조 특
탕 [그림15] 같이 BNF(Backus-Naur Form)[3,4]
면역 보고 식 여 이 마커명과 결과 등
분리해내는 구 분 (Parsing)에 사용 다.
그림 15면역화학검사보고서의 Backus-NaurForm(BNF)
25
보고 분 는 면역 검사보고 BNF를 탕 입
면역 검사보고 가 리스트 식인지 이 식 인지 분
다. 이 분 에 라 리스트 식 를 (Parser)
이 식 를 를 이용해, 이 마커명과 그 결과 그리
고 조직검사번 를 분리해낸다.
다만, 본 BNF에 벗어나는 경우 구조 식에 에러가 존재 다고
가 고, 식에러를 생시키는 집 여 각 에러
(Error Rate) 소 있도 다. 이를 합 과 [그
림16]과 같다.
그림 16보고서 분석기의 순서도
26
3.3. 이 마커 규
보고 분 를 통해 검사조직에 이 마커명과 시험결과
1차 구조 가 끝나면 이 마커명에 규 를 시행 게 다.
이 마커명 규 는 시스 에 변
뜻 며, 본 시스 에 는 스 리 모듈 재 아래 크게 후보
생 과 단계를 거쳐 규 를 행 다. 다 부
통해 스 리 모듈과 후보 생 단계, 단
계에 해 자 히 다루겠다.
3.3.1. 스 리 모듈
스 리 모듈 다 과 같 5가지 역 행 다.
A.바이오마커 시소러스 확장
B.바이오마커 시소러스 업데이트
C.문맥정보 테이블 생성
D. 표표 형 후보 문자열 리스트 리
E.최종 시스템 출력 결정
이 마커 시소러스(Thesaurus)는 다양 게 이 마커
나 인식 있도 구 사 써, 이 마커
에 동 어 약어가 등 있도 다.
27
3.3.1.1. 이 마커 시소러스 장
그림 17바이오마커 시소러스 확장 과정 흐름도
이 마커 시소러스는 [그림17]과 같이 울 병원 이
마커 리스트에 포함 이 마커 에 해 시스
지 여 생 다. 생 이 마커 시소러스는 2.1.2.4
에 언 했 이 마커명 특 자 다양 해소
해 특 자 규 를 시행 다. 특 자 규 를 통해 1
차 장 이 마커 시소러스에 해 자열이 다 과 같
갖는 경우 2차 장 시도 다.
28
a)하이 포함 문자열
b)<숫자>(공백)<문자>
c)<문자>(공백)<숫자>
2차 장 인식 에 해 이 주변 공 자 삭 , 자
자 사이에 이 추가, 이 신 공 자 체 등 일
규 통해 행 다. [그림18] 2차 장 시이다.
그림 18바이오마커 시소러스 확장 시
3.3.1.2. 이 마커 시소러스 업데이트
3.3.1.1에 장 이 마커 시소러스는 이 마커 규 과
에 업데이트 있다. 이는 에 장 이 마커 시소러
스가 직 병원에 사용 는 이 마커 리스트에 고 생
것이 에 동 어를 포 고 있지 않 에 인 다.
라 이 마커 규 과 에 해당 이 이미 등
이 마커 동 어 임이 실시 는 경우, 해당
에 해 시소러스 장 과 용 여 이 마커 시소러스에
추가 다.
시소러스 업데이트는 추후 명 후보 생 단계 UMLS
29
exact 검색 통해 생 후보 자열이 종
경우, 시소러스 업데이트 상이 다.
3.3.1.3. 맥 보 이 생
본 연구에 는 후보 합 계산 해 맥
보를 사용 다. 속도를 해 트 이닝 데이 (training data)를
맥 보 이 생 는데 가지 식 생
다. 나는 3.3.3.2 에 소개 맥 에 사용 맥시
스 맥 보 이 [ 2]이고, 다른 나는 3.3.3.3 에 소개
후보 합 계산에 사용 이 마커 맥 보 이 [
3]이다.
필드명 속성
문맥정보 생성옵션 String
문맥 시 스 String
바이오마커 문자열 String
표2문맥시 스기 문맥정보테이블정보
필드명 속성
문맥정보 생성옵션 String
바이오마커 문자열 String
문맥 시 스 String
빈도수 Integer
표3바이오마커기 문맥정보테이블정보
이 , 본 연구에 맥 시 스(Context Sequence)는
검사조직 규 고자 는 타겟 이 마커
(Target Marker) 함께 사용 이 마커 집합 별도
구분 자를 사용 여 나 자열 조합 새 운 자열
말 다.
이 불어 맥 보 생 [ 4] 같 며, 이
30
마커 자열 맥 보 생 에 른 사용 다.
a)Raw_option 보고서에 기술된 표 형 그 로를 사용하여 조합
b)Cleaned_option Raw 표 형을 클린징한 문자열을 사용하여 조합
c)JE_option
문맥에 포함될 바이오마커 표 에서 규칙기반
표표 형 변환이 가능하면 해당 표표 형을
조합에 사용하고,불가능하면 클린징한 문자열을
사용하여 조합
표 4문맥정보 생성옵션
그림 19문맥정보 테이블 생성 시
[ 2,3]에 각각 맥 보 이 에 보를 장 는
식 [그림19]처럼 타겟 이 마커 에 맥시 스를
생 여 각각 이 식에 맞게 장 는 식 진행
다. 맥시 스 부분집합에 보 고 여 맥
시 스에 사용 이 마커명 집합 부분 집합 고 맥시
스를 생 여 맥 보 이 에 추가 다.
31
3.3.1.4. 후보 자열 이 리
스 리 모듈 3.3.2 에 다루게 후보 생
모듈에 생 는 후보 자열 별도 이 [ 5]에 추가
여, 어떤 단계에 생 후보 자열인지 알 주는 보를 장
다. 3.3.3 에 다루게 모듈에 생
후보 자열 합 를 리 다. 이 이 추후 3.3.1.5
에 명 종 결 에 사용 다.
필드명 속성
바이오마커 문자열 String
시스템 표표 형 String
후보 생성 단계정보 String
후보 합성 Double
표 5후보 문자열 테이블 정보
3.3.1.5. 종 결
타겟 이 마커에 종 결 [그림20]과 같이
후보 생 단계에 라 달리 여 행 다. 이 , 합
종 이 마커 찾지 못 는 경우, 에러 구
(Error Tag) 출 다.
32
그림 20최종 표표 형 결정 과정
앞 언 했 후보 자열 이 통해, 생
후보 자열이 어떤 단계에 생 었는지 인 다. 생 후보가
규 후보 자열이거나 UMLS exact 검색 통해 찾아진 자
열이라면 일 검색(Exact Matching) 통해 찾아지는 이
마커 시소러스 엔트리(entry)가 있는지 인 다. 이 단계에 매칭
(Matching) 는 시소러스 엔트리가 존재 는 경우 해당 엔트리
종 고 스를 종료 다.
앞 단계에 스가 종료 지 않았다면, UMLS검색 후보
자열과 사 자열 검색 후보 자열 상 후보 합
산 모듈 통해 를 계산 다 곳값 갖는 후보 자열
결 고 스를 종료 다.
33
3.3.2. 후보 생
입 이 마커 자열에 후보를 생 는 법
[그림20]에 것처럼 4가지 법 이용 여 아래 같
종 후보 자열 리스트를 생 다.
a)규칙기반 후보 생성
b)확장 문자열리스트 상 UMLSexact검색기반 후보 생성
c)확장 문자열리스트 상 UMLSword검색기반 후보 생성
d)유사문자열 검색기반 후보 생성
3.3.2.1. 규 후보 생
규 후보 생 [그림21]과 같 자열 클린징
(Cleansing)과 3.3.1 에 이 마커 시소러스 장 해 사용
는 규 사용 다. 이 불어 2.1.2 에 다룬 면역 검사
보고 내용 특 고 약 20종 규 식 이용해
추가 인 후보를 생 다.
특히, 이 단계에 는 종 이상 이 마커를 합 여 사용
는 Shake 검사 시행 를 인식 규 식 이용
여, shake 검사 인식 여 별도 지
있도 다.
34
그림 21문자열 클린징(Cleansing)과정
3.3.2.2. UMLS 검색 후보 생
UMLS 검색 후보 생 법 UMLS 검색 에 라
exact 검색과 word검색 법 나 며, 검색 자열인 쿼리
(Query)에 라 본 자열과 규 장법에 장 자
열리스트 나 어 3가지 종 UMLS 검색 후보 자열
이 생 다.
UMLS 검색 후보생 단계 경우, [그림22]처럼 쿼리에
결과인 CUI가 1개 이상 존재 면 6단계 부 스를 진행
다. 도에 사용 용어 명 [ 6] 신 다.
35
이 , 속도향상 여 각 단계가 끝나면 스 리모듈에
결과를 송 여 스 종료 가능 인 다. [그림22]에
단 는 부분이 스 리 모듈에 진행 는 부분이다.
그림 22UMLS검색기반 후보생성 순서도
36
용어 설명
UMLS검색에 사용되는 쿼리 바이오마커 표 형
UMLS검색옵션
에 한 최종 표표 형
에 한 표표 형 후보 리스트
검색옵션으로 찾은 의 UMLSCUI결과리스트
확장 바이오마커 시소러스
확장된 바이오마커 시소러스
CUI의 UMLS 표표 형 문자열
CUI의 UMLS동의어 검색결과 문자열 리스트
바이오마커문자열 에 한 문자열 클린징 결과
바이오마커문자열 에 한 규칙기반 문자열 확장리스트
표 6UMLS검색 련 용어 정의
스 리모듈 검색 이 word인 경우, 각 step에 yes
별 어도 그래도 지 않고 3.3.3 에
명 후보 모듈 통해 지
단 다.
3.3.2.3. 사 자열 검색 후보 생
사 자열 검색 후보 생 이 마커 시소러스 모든
엔트리 입 이 마커 자열 사이 자열 사도를 계산
여 사도 가 임계 (Threshold)를 어 면 해당 엔트리
후보 자열 추가 는 식 이루어진다.
본 연구에 는 자열 사도 종 별 결과 편향 에 단
37
극복 해, Vladimir Levenshtein이 고안 edit distance
알고리즘인 Levenshtein distance[5,6,7]를 사용 ,
LCS(Longest Common Subsequences)[7,8,9] 이를
, Jaro-Winkler similarity[10,11]를 이용 , String
Subsequences Kernel similarity[12,13,14]를
지 4종 자열 사도 를 사용 다. 각 사도
에 간략 식 다 [ 7] 같 며 자 명 참고
헌 체 다.
종 류 수 식
Normalized
Levenshtein
distance
min
∙min∥∥∥∥max∥∥∥∥min∥∥∥∥
Normalized
LongestCommon
Subsequences
length
max ∥∥∥∥
Jaro-Winkler
similarity
∙ ′
′′
′′ ′ ∙ ∙
String
Subsequence
KernelSimilarity
표 7문자열 유사도 알고리즘 설명
38
본 연구에 는 사 자열 단 는 각 사도
종 별 임계 를 여 사용 다[그림23]. 각 임계 는 실
험 통해 른 후보가 락 지 않도 여 롭게 다.
그림 23유사 문자열 검색기반 후보생성 과정
39
3.3.3.
[그림24]처럼 UMLS 시맨틱타입 맥
를 통해 종 합 지 않 후보 자열 거
다 , 후보 합 계산 모듈 통해 각 후보 자열이
있는 를 스 리 모듈이 리 는
후보 이 에 추가 는 과 거쳐 종 스 리모듈에
해 이루어진다.
그림 24 표표 형 선정 과정 흐름도
3.3.3.1. UMLS 시맨틱타입
후보 자열이 UMLS 검색 후보 생 단계를 통해 추가
자열이라면 UMLS 시맨틱타입 를 통해, 추가 자열이 이
마커 고 있는 UMLS 시맨틱타입 갖는지 인 는 작
업 행 다. 본 연구에 이 마커 자열 가능 다고 고
시맨틱타입 [ 8]과 같다.
40
시맨틱타입코드 설명T005 Virus
T028 GeneorGenome
T059 LaboratoryProcedure
T063 MolecularBiologyResearchTechnique
T085 MolecularSequence
T086 NucleotideSequence
T087 AminoAcidSequence
T088 CarbohydrateSequence
T109 OrganicChemical
T114 NucleicAcid,Nucleoside,orNucleotide
T115 OrganophosphorusCompound
T116 AminoAcid,Peptide,orProtein
T121 PharmacologicSubstance
T123 BiologicallyActiveSubstance
T124 NeuroreactiveSubstanceorBiogenicAmine
T125 Hormone
T126 Enzyme
T127 Vitamin
T129 ImmunologicFactor
T130 Indicator,Reagent,orDiagnosticAid
T192 Receptor
T195 Antibiotic
T197 InorganicChemical
표 8시맨틱타입 필터에 사용된 시맨틱타입 정보
3.3.3.2. 맥
맥 는 재 규 고자 는 이 마커 같이 사용
이 마커 보인 맥 보를 탕 , 해당 맥 보를 가질
있는 이 마커 만 추 내는 작업 다.
맥 는 [그림25] 같이 3.3.1.3 에 명했 스
리 모듈에 생 맥시 스 맥 보 이 에 존재 는
모든 맥시 스 키(key)에 해 맥 를 계산 다. 맥 는
입 맥시 스 맥시 스 맥 보 이 에 존재 는
41
Key 맥시 스에 존재 는 이 마커 합집합 개 에
집합 개 를 사용 다.
산 맥 가 값 면 해당 Key 맥시 스가 갖는
이 마커 리스트를 PossibleMarkerList에 추가 여, 3.3.3.3 에
명 후보 합 계산모듈 PossibleMarkerList에 해
만 진행 다.
그림 25문맥기반 필터의 PossibleMarkerList생성 과정 흐름도
42
3.3.3.3. 후보 합 계산
후보 합 자열 사도 맥
조합(Linear Combination) 통해 계산 다. 자열 사도는
3.3.2.3 에 사용 종 자열 사도를 조합 값
사용 다. 맥 경우, 3.3.3.2 에 사용 맥
사 나, 맥시 스에 도 를 보를
포함해 맥 를 계산 여 사용 다. 후보 합 계
산에 상 명 아래 식 체 다.
∙ ∙
∙∙
∙∪∩
∙
∙
식(1) ,,,는 합이 1이 도 다. 식(2)
는 재 처리 고 있는 이 마커 맥시 스인 입 맥시 스
이 마커 집합 뜻 다. 는 ∈를 만족 는 맥시
스 써, 는 이 마커 맥 보 이 에 이 마커
X를 키(Key) 여 찾 맥시 스 집합 결과 출 는 함
이다. 는 이 마커 맥 보 이 에 이 마커 B
43
를 Key 여 찾 맥시 스 에 맥시 스 출 도
를 뜻 다. 는 이 마커 가 습데이 집합(Training
Set)에 견 도 를 뜻 다. 는 짧 맥시 스일
도 가 많아지는 편향 감소시키 값 , 다 식(4)를
이용 여 계산 다.
∙
는 입 맥 시 스 에 속 는 이 마커 개 에
라, 개 가 작 값 는 함 이다.
는 자주 사용 는 이 마커는 맥 가 높 경향
여, 후보 이 마커 가 트 이닝 데이 에 나
타난 도 그값 이용 페 티(penalty) 를
는 함 써 식(5)를 이용 다. 는 실험 통해 가장 높 능
보이는 값 사용 다.
log
에 사용 값 자열 사도 맥
에 가 를 결 는 값 써, 본 연구에 는 실험 경험
에 라 트 이닝 데이 에 가장 높 능 출 는 값 이
용 다.
44
IV. 실험 평가
4.1. 실험 경
본 연구를 해 울 병원 병리과 부 2008 부 2012
도 지 생 면역 보고 (보고 구별 드:PA) 약 4만 건 았
며, 그 2008~2011 도 자료를 시스 개 습데이
(Training data) 사용 고, 2012 도 자료를 시스 평가를
스트 데이 (Test data) 사용 다[ 9]. , 울 병원
병리과에 사용 는 이 마커 리스트를 요청 다 , 2명 병리
임상 가 시스 에 사용 이 마커 지 다.
학습 데이터 테스트 데이터
종류 SNUHPA08-11 SNUHPA12
개수 32,823 8,566
표 9실험 데이터 정보
보고 분 개 능 평가를 해, 2명 평가자가 모든
데이 에 해 보고 분 를 행 결과를 보고 이 마커명이
짐없이 알맞게 각각 드 분리 었는지를 보고 단
평가를 진행 다. 규 개 능 평가를 해 는 3명
병리임상 가 분리 어 나 이 마커 상 이 마커시
스 작업 태 (Tagging) 다. 이 , 타
이 불가능 마커 뿐만 아니라, 시스 에
이 아닌 이 마커 인 경우 에러 태 다.
45
4.2. 실험 법
본 연구에 는 이 마커 규 규 처리 능 우
보이 해, 간단 이 마커 시소러스인 울 병원 이 마
커 리스트에 지 여 만든 이 마커 시소러스를 상
사 검색(dictionary lookup) 행 여 변
는 규 시스 베이스라인 시스 (Baseline System, 능
시스 ) 다.
, 이 마커 규 에 능 평가 시 후보생 단계별
능 향상 효과를 악 여, 규 후보생 통해 결
이 마커 결과인 Rule-based PT결과 UMLS exact 검색 통해
찾아진 후보가 후보 합 산 과 거 지 않고
출 경우인 UMLS-based PT결과, 후보 합 계산 통해
종 결 는 모듈 통해 출 결
과인 Score-based PT결과, 마지막 불가 태그
인 에러 태그가 출 경우인 Error Tag경우 나 어 각각
도(Accuracy)를 구 여 평가 다.
능 평가 법인 도 값 아래 식(4)를 이용 여 계산
며, TP, TN, FP, FN 각각 True Positive, True Negative, False
Positive, False Negative를 뜻 다.
⋯
46
출 경우를 Positive 고, Error tag를
출 경우를 Negative 다. 보고 분 를 통해 분리
이 마커 찾 없거나, 타가 심 여
없 에만 Error tag를 출 사 에 므
, True Positive는 른 (Correct Preferred Term;
Correct PT) 출 경우를 뜻 며, False Positive는 잘못
(Incorrect Preferred Term; Incorrect PT) 규 여
출 경우를 뜻 다. 이 , error tag는 본 연구 시스 계상 후
보 합 산 모듈 거 경우에만 생 있 며, baseline 시
스 과 rule-based PT 단계, UMLS-based PT단계에 는 합
찾지 못 경우 Unresolved tag를 출 므 종 인
False Positive 경우는 Incorrect PT tag 경우 Unresolved tag
경우를 포함 여 카운트 다. True Negative는 르게 Error
tag가 출 경우를 뜻 며, False Negative는 규
가 가능 이 마커 인 경우임에도 불구 고 error tag를 출
경우 다.
47
4.3. 실험 결과
[ 10] 베이스라인 시스 에 능 스트 에 나타난
이 마커 종 를 후보 생 단계별 도를
결과를 나타낸 것이고, [ 11] 이 마커 도 를
도를 결과를 나타낸 것이다. [ 10]과 [
11] 그래 나타낸 것 각각 [그림26],[그림27]과 같다.
베이스라인 시스 스트 데이 에 존재 는 이 마커 종
458개 에 108개 에 해 만 히 규 를
고, 각 도 지 고 했 에는 체 40,304건 이
마커 38.01%인 15,320건 이 마커 만 규 를
공 여 종 도 0.2358, 도 0.3801에 그쳤다.
면, 본 연구 시스 Rule-based PT 단계에 이미 종
55.02%인 252개를 규 고, 체 도 상 도
65.64%인 26,457건 르게 규 여 출 다. 종
414개 종 게 규 함 써 체 39,600
건 게 규 여, 종 도 0.9039, 도
도 0.9825를 여 베이스라인 시스 보다 2 이상
높 능 보임 알 있었다.
표 10베이스라인 시스템의 정확도 시스템 단계별 정확도 (표 종류기 )
48
표 11베이스라인 시스템의 정확도 시스템 단계별 정확도 (빈도수 기 )
그림 26시스템 단계별 바이오마커 표 처리 양상 그래 (표 종류 기 )
그림 27시스템 단계별 바이오마커 표 처리 양상 그래 (빈도수 기 )
49
V. 고찰
본 시스 모든 이 마커 에 시스 결과를 출 면
규 가 불가능 에 해 는 Error Tag를 출 므 , Error
Tag 출 시스 결과 들만 검토 여 이 마커에
지 여 주면 임상 에 나타나는 이 마커
상당 부분 처리 있다.
특히, Error Tag를 분 해 본 결과, 시스 이 없는 경
우 Error Tag를 출 에, 새 운 이 마커명
에 도 가 커 Error Tag에 포함 이 마커 도가
높 것 나타났다.
이는 Score-based PT 에러 양상과도 같 데, [그림28]처럼 소
마커명에 도 가 크게 나타나고 있 알 있다.
그림 28Score-basedPT단계의 에러 표 별 빈도수
50
VI. 결
본 연구에 는 병리진단 근거 써 질 별 이 마커 양 통계
보를 공 여, 량 병리보고 부 이 마커
보를 추출 여 데이 생 는 법 안 다.
본 연구 시스 병리보고 구조 특 Context-free
Grammar 일종인 BNF 여 보고 를 분 고, 이를 통해
1차 데이 를 상 이 마커 규 를 통해 다양
게 이 마커 나 변 는 규
과 거쳐 종 구조 이 마커 보를 출 다.
규 를 해 후보 생 과 후보 과 거 게 며, 후보
합 단 해 면역검사진단 트 개 에 착안 여 도입
맥 보를 자열 사도 보 함께 사용함 써 타
지 가능 시스 안 다.
시스 능평가 결과, 이 마커 단 규 도가
0.9039, 이 마커 도 단 규 도가 0.9825 병리보고
부 이 마커 보를 상당 게 추출 있
보 다.
추후 후속 연구를 통해, 존 이 마커 리스트에 포함 어 있지
않 새 운 이 마커 자동 견 시스 등 추천 능 추
가 이 마커명뿐만 아니라 이 마커 검사 결과 지 맥 보에
포함 후보 합 계산 통해 시스 도를 높이고자 다.
본 시스 존에 생 자료를 탕 이 마커 보를 추
51
출 는 데에만 사용 있는 것이 아니라, 이 마커 시험결과를
보고 작 생 있는 타를 이 실시간 자동
타 능 장 써도 사용 있 므 그 용
도가 높 것 다.
52
참 고 헌
1. Cochrane AL. Effectiveness and Efficiency: Random
Reflections on Health Servies. London: Nuffield Provincial
Hospitals Trust. Reprinted in 1989 in association with the
BMJ. Reprinted in 1999 for Nuffield Trust by the Royal
Society of Medicine Press, London, ISBN
1-85315-394-X (1972)
2. PathPedia, LLC, Available from: http://www.pathpedia.com/
3. BACKUS, John. Can programming be liberated from the
von Neumann style?: a functional style and its algebra of
programs. Communications of the ACM, 1978, 21.8:
613-641.
4. Feigenbaum, Edward A., Avron Barr, and Paul R. Cohen,
eds. The handbook of artificial intelligence. New York:
Addison-Wesley, 1989.
5. A. Levenshtein, Binary codes capable of correcting
deletions, insertions, and reversals, Soviet Phys, Dokl.,
vol. 10, pp. 707-710, 1966
6. NAVARRO, Gonzalo. A guided tour to approximate string
matching. ACM computing surveys (CSUR), 2001, 33.1:
31-88.
7. WAGNER, Robert A.; FISCHER, Michael J. The
53
string-to-string correction problem. Journal of the ACM
(JACM), 1974, 21.1: 168-173.
8. ILIOPOULOS, Costas S.; SOHEL RAHMAN, M. Algorithms
for computing variants of the longest common
subsequence problem. Theoretical Computer Science,
2008, 395.2: 255-267.
9. V. chvatal, D. Sankoff, Longest common subsequences of
two random sequences, J.Appl.Probab., pp.306-315, 1975.
10. Jaro, M. A., Advances in record linkage methodology as
applied to the 1985 census of Tampa Florida, Journal of
the American Statistical Association 84 (406): 414–20.
11. Jaro, M. A., Probabilistic linkage of large public health
data file, Statistics in Medicine 14 (5–7): 491–8.
12. Winkler, W. e., String Comparator Metrics and Enhanced
Decision Rules in the Fellegi-Sunter Model of Record
Linkage, Proceedings of the Section on Survey Research
Methods (American Statistical Association): 354–359.
13. COHEN, William W., et al. A Comparison of String
Distance Metrics for Name-Matching Tasks. In: IIWeb.
2003. p. 73-78.
14. LODHI, Huma, et al. Text classification using string
kernels. The Journal of Machine Learning Research,
2002, 2: 419-444.
54
Abstract
Extracting Biomarker Information
From Pathology Reports
Using Natural Language Processing
Jeongeun Lee
Interdisciplinary Program of Bioengineering
The Graduate School
Seoul National University
Obtaining the statistics of biomarker test results for the diseases can
improve the quality of evidence based medicine, since biomarker assay
is critical evidence for histopathological diagnosis of testing tissue.
Currently, data curation for this purpose based on large data sets is
painstaking process because the majority of the work needs manual
analysis of published data.
Thus, as a foundation technique, we developed a method extracting
biomarker information from immunohistochemical pathology reports. The
purpose of the Biomarker Information Extraction System is to make
structured data, which has normalized biomarker expressions and the
test results from free-text of immunohistochemical pathology reports.
For this, the system run the Report Analyzer which has the grammar
55
we defined to parse the pathology reports so that to get intermediate
structured data that include biomarker name field and test result field.
After that, the Biomarker Name Normalizer converts the biomarker
expressions, which might have been variously written for the same
concept, into the system preferred terms.
To solve the problem that a simple normalizer with dictionary lookup
may not recognize biomarker expressions with spelling errors or can
not correct the spelling errors appropriately, the system normalizes the
terms with the Preferred Term Candidates Creator, followed by the
Preferred Term Selector.
The Preferred Term Candidates Creator module creates the possible
candidate preferred terms for the target biomarker expression using the
heuristic rule-based method, the UMLS searching-based method, and the
string similarity-based method.
The Preferred Term Selector chooses the final preferred term based on
the candidate evaluation that uses the string similarity and the
conditional probability of a candidate given own Context Information,
which is information about a set of biomarkers that are tested together
on the same tissue.
We evaluated the system with 8,566 immunohistochemical pathology
reports recorded at 2012 from the Seoul National University Hospital,
which contain 458 biomarker patterns and 40,304 expressions for that
patterns in total. In the evaluation, the Biomarker Name Normalizer
scored accuracy based on types of patterns and frequency of 0.9039,
0.9825, respectively.
56
Keyword: Natural Language Processing, Information Extraction, Spelling
Error Correction, Biomarker, Pathology Report
Student Number: 2012-21020