정보탐색팀 : 정보탐색을 위한 확률신경망 학습 기술

정보탐색팀정보탐색팀 : : 정보탐색을 위한 정보탐색을 위한 확률신경망 학습 기술확률신경망 학습 기술

서울대학교 컴퓨터공학부 장병탁

뇌신경정보학연구사업

인간의 신경인지기전 모델에 기반한 추론 및 학습기술 개발

2

고성능 정보검색

시스템

개인차 이용 시스템

제품 정보 DB 구축

Web

대용량 DB

웹 마이닝

문서 인덱싱

컨텐츠 정보분석

정보 추출

정보 여과

정보 분류

신경망 기반 정보 추출 및 분류 시스템

대규모 텍스트 분석

주제어 추출

모델의 자동 학습 …. .

은닉변수 기반 텍스트 마이닝 시스템

PLSA NMF ICA

Multiple-cause model

인간의 정보 분류 / 범주화 체계

텍스트 처리 인지 기제

정보분류체계의행동 , 수리적 모형

LSA, PCA, MDSFactor Analysis 인지심리분석시스템

정보탐색기술 연구 체계도정보탐색기술 연구 체계도

3

1 차년도

은닉변수 신경망 모델 연구• PLSA, NMF, ICA• Multiple cause model

은닉변수 신경망 모델 연구• PLSA, NMF, ICA• Multiple cause model

2 차년도 3 차년도

신경망 기반의 정보 추출•사용자의 요구에 맞는 정보추출

신경망 기반의 정보 추출•사용자의 요구에 맞는 정보추출

인간에 적합한 시스템 구축방식과 제한적

해결방안 연구

인간에 적합한 시스템 구축방식과 제한적

해결방안 연구

은닉변수 신경망 모델 기반의 정보검색 기술 개발• 모델의 자동학습• 기본성능 테스트

은닉변수 신경망 모델 기반의 정보검색 기술 개발• 모델의 자동학습• 기본성능 테스트

웹 컨텐츠 정보의 분석 , 분류 , 여과 기술 개발

웹 컨텐츠 정보의 분석 , 분류 , 여과 기술 개발

정보 분류의 인지심리학수리심리학적 모형• 텍스트 처리 고유의 인지기제•정보분류와 범주화에 대한 개인화

정보 분류의 인지심리학수리심리학적 모형• 텍스트 처리 고유의 인지기제•정보분류와 범주화에 대한 개인화

고성능 정보검색 시스템개발 / 평가• Neuro-IR• 대규모 문서데이터에 적용

고성능 정보검색 시스템개발 / 평가• Neuro-IR• 대규모 문서데이터에 적용

DB 구축 및 타 과제와의시스템 통합• 제품 정보 DB 구축• DB 의 효용성 확인

DB 구축 및 타 과제와의시스템 통합• 제품 정보 DB 구축• DB 의 효용성 확인

개인차 이용 시스템의 구현 및 평가• 시스템의 수행능력 비교 연구

개인차 이용 시스템의 구현 및 평가• 시스템의 수행능력 비교 연구

정보탐색기술 연구 계획정보탐색기술 연구 계획

4

11 차년도 연구목표 및 내용차년도 연구목표 및 내용 텍스트 문서의 분석 , 분류를 위한 은닉변수 신경망

모델 연구 Multiple-cause models, PLSA, NMF, ICA, HMM 등 . 은닉변수 신경망 모델 기반 문서 인덱싱 기법 및 주제어 추출

연구 다양한 웹컨텐츠 정보의 분석 , 분류 , 여과 방법 연구

다양한 웹사이트의 컨텐츠 정보에 대한 분석 방법 연구 신경망 기반 웹컨텐츠 정보 분석 , 분류 , 여과 방법 연구

정보 분류에 대한 인지심리학 , 수리심리학적 모형 개발

인간의 정보 분류체계에 대한 행동적 / 수리적 모형 개발 LSA 모형 , 신경망 모형 , PCA, 요인 분석 , MDS 모형 등

텍스트 처리에 고유한 인지 기제 연구

5

토픽 기반 문서 인덱싱 및 여과

토픽추출을 위한 모델 연구 PLSA, NMF, Multiple Cause Model, PCA, ICA

토픽 추출에서의 모델의 특징 및 성능 비교 PCA (Principal Component Analysis) ICA (Independent Component Analysis)

텍스트 마이닝을 위한 신경망 기술텍스트 마이닝을 위한 신경망 기술 텍스트 마이닝을 위한 신경망 기술텍스트 마이닝을 위한 신경망 기술

6

주제어 기반 문서 인덱싱

0 1

10

1 0

03

0 0

20

… 3

0…

… 1

0…

… 1

1…

0 …

…0

0 …

…3

2 …

…0

0.30.2

0.4 0.4

0.51.3

0.5…

… 0.3

0.3…

…0.1

0.0 …

…0.9

Document vector Topic vector

Word-based Representation Topic-based representation

bio

bible

bike

life

fever

focus 은닉변수모델에 의한 토픽 추출 및 차원 감소

7

주제어 기반 문서여과 문서의 표현

문서간 유사도

di1 di2 di3 dik wi1 wi2 wi3 wik… …

모델에 의한 표현 토픽들의 가중치 (Global Weight) 를 고려한 표현

8

문서여과 실험 데이터 집합

TREC-7 Filtering 데이터 집합 1998 년 AP 기사 집합 총 79,919 문서 집합

실험 설정 어휘 크기 : 20,000 토픽의 개수 : 64

성능 척도

질의문의 종류documentsrelevant of #

documentsrelevant retrieved of #documents retrieved of #

documentsrelevant retrieved of #

recall

precision

Topic No. Category

1-5,8 International Economics

6 International Finance

7 U. S. Economics

9 U. S. Politics

10-11 Science & Technology

12 Environment

9

주제어 추출 결과

PCA

ICA

10

ICA

ICA with GW

PCA

PCA with GW

1 2 3

4 5 6

7 8 9

10 11 12

Query

문서여과 성능 비교

11

User Modeling System User Modeling System 구조구조

…User action like Bookmarking and

Saving pages

User behavior like Frequently visited

pages

Usage mining system

Personalized service system User profile database

Other collections likeClick-streams

User

(update)1. Adaptive information filtering agent based User Modeling

2. Predictive agent for next user requests

웹정보의 분석웹정보의 분석 , , 분류분류 , , 여과여과 웹정보의 분석웹정보의 분석 , , 분류분류 , , 여과여과

12

문서수집 문서 전처리

사용자프로파일

과 문서 순위 매

칭

Combined Feedback

Filter Agent

Interface

사용자 프로파일

문서 순위

프로파일 학습

사용자의 결합된 피드백

사용자

사용자에게 유익한 관련 정보만을 선별적으로 골라내어 전달 , 제공

사용자의 관심도 , 선호도 , 흥미 등의 파악과 시간적으로 변하는 사용자의 동적인 관심 영역의 변화에 적응적으로 대처

사용자의 무의식적인 잠재적 관심 영역까지 도출해 낼 수 있는 능력

이런 특성을 지니기 위해서는 무엇보다도 사용자에 대한 프로파일의 정확한 구축이 필 수 조건이며 , 사용자 프로파일 바탕에는 사용 자의 적합성 반응이 필요

Adaptive Information Filtering AgentAdaptive Information Filtering Agent

13

WordNet 기반 비관련 영역 단어로서 특정영역 관련문서에

다수 출현 단어집합 (positive term set) 특정영역 단어가 나오는 특정영역 비관련

문서에 다수 출현하는 비관련 영역 단어집합(negative term set)

특정 영역의 웹정보 추출특정 영역의 웹정보 추출

14

EducationEducation

MovieMovie

PetPet

WordNet Model

Animal

Education Movie

1 관련문서0 비관련문서

Back-Propagation NetworkModel

4 개 ,6 개 ,8 개 ,10 개

44 개

단어

Education

Animal

Movie

비관련

WordNetWordNet 과 과 BPNBPN 을 이용한 문서 적합성 판단을 이용한 문서 적합성 판단

15

전제 동물에 관하여 전문적으로 정보를 제공하는 사이트 . 비교적 정해진 형식에 맞추어 다수개의 동물 정보를

제공 . 단계

1. 동물 관련문서들을 수집해 올 사이트를 선택 2. 선택된 사이트의 모든 웹 문서들을 수집 3. 웹 문서의 작성 형태에 따라 클러스터링 4. 결과 그룹 중에 좋은 웹 문서를 포함한 그룹 선택 5. 선택된 그룹의 웹 문서들을 동물 관련문서로 수집 6. 1 로 .

링크와 클러스터링을 이용한 적극적 문서 수집링크와 클러스터링을 이용한 적극적 문서 수집

16

가 : www.animalinfo.org

나 : www.parks.tas.gov.au

다 : animaldiversity.ummz.umich.edu

사이트 가 나 다전체 문서 수 471 1243 3571

전문 문서 수 210 58 995

선택된 문서 수 209 47 962

기존 문서수 37 13 65

선택된 문서 – 기존 172 34 897

실험 및 결과실험 및 결과

17

두 개나 그 이상의 contingency table 이 하나로 통합되면 원래의 표 각각에서 나타난 변인 관계가 사라지거나 역전되는 현상

부서 L Male Female

Hired 550 1250

Denied 1450 2750

H/Rate 27.5% 31.25%

부서 H Male Female

Hired 2950 800

Denied 1050 200

H/Rate 73.75% 80%

전회사 Male Female

Hired 3500 2050

Denied 2500 2950

H/Rate 51.3% 41%

<

<

>

텍스트 분류에 있어서의 집합의 오류텍스트 분류에 있어서의 집합의 오류 텍스트 분류에 있어서의 집합의 오류텍스트 분류에 있어서의 집합의 오류

Simpson’s ParadoxSimpson’s Paradox

18

집단 A: r12= +.62 집단 B: r12= +.38

Group A Group B

x1 x2 x1 x2

18193237243428312530

11141522121311198

14

10161921201414161920

23242724292124272125

전체집단 : r = - .44

x1 과 x2 의 관계성 ( 상관계수 r12)

Spurious CorrelationSpurious Correlation

19

부서 L/ H 와 전체회사의 고용률 집단 A / B 의 x1, x2 분포

0(male) 1(female)Sex

Hir

ing

Ra

te

부서 H 부서 L

x1

x2

집단 B 집단 A

집단간 변인 평균의 차이 때문에 발생

Aggregation ErrorAggregation Error 의 원인의 원인

20

Sockloff(1975) 두 변인의 평균이 모두 subgroup 1 > subgroup 2 total group correlation 이 exaggerated

변인 1 의 평균 : subgroup 1 > subgroup 2, 변인 2 의 평균 : subgroup 1 = subgroup 2 total group correlation 이 asymptotically zero

변인 1 의 평균 : subgroup 1 > subgroup 2, 변인 2 의 평균 : subgroup 1 < subgroup 2 total group correlation 이 diminished

21

상위 계층 단위별로 자료를 따로 분석한 뒤 통합 상관의 산술평균 상관의 표본크기 가중평균 (Hunter & Schmidt, 1990) cosine(arccosine의 산술평균)

단 , arccosine=cosine-1

cosine(arccosine 의 표본크기 가중평균 )

교정방법 교정방법 1: Meta-analysis Technique1: Meta-analysis Technique

22

• 확률효과 모형 사용 -HLM

– ,

– 측정오차 eij~ N(0,V1)

확률적 parameter bj~N (0,V2)

– 첨자 i: individual(micro unit) 에 대한 것 첨자 j: group(macro unit) 에 대한 것

e )bX(

e X y

ijj

ijjij

교정방법 교정방법 2: Hierarchical Linear Model2: Hierarchical Linear Model

Documents

정보탐색팀 : 정보탐색을 위한 확률신경망 학습 기술