47
1

[211] 네이버 검색과 데이터마이닝

Embed Size (px)

Citation preview

Page 1: [211] 네이버 검색과 데이터마이닝

1

Page 2: [211] 네이버 검색과 데이터마이닝

2

Page 3: [211] 네이버 검색과 데이터마이닝

네이버 & 데이터 마이닝

주변핫검색

3

Page 4: [211] 네이버 검색과 데이터마이닝

옛날 이야기 – 연관 검색어

Support Confidence Frequent Subset

4

Page 5: [211] 네이버 검색과 데이터마이닝

연관 검색어

5

Page 6: [211] 네이버 검색과 데이터마이닝

연관 검색어

전체 1000명중 100명이 evidence가 되는 경우 전체 1000명중 10명이 evidence가 되는 경우 전체 1000명중 5명이 evidence가 되는 경우

6

Page 7: [211] 네이버 검색과 데이터마이닝

연관 검색어

7

Page 8: [211] 네이버 검색과 데이터마이닝

1

8

Page 9: [211] 네이버 검색과 데이터마이닝

기술을 이긴다는 것 …

9

Page 10: [211] 네이버 검색과 데이터마이닝

랭킹 시스템

1

2

3

100클릭

200클릭

50클릭

CASE 1

교환 100클릭

100클릭

50클릭

CASE 2

교환 100클릭

90클릭

50클릭

CASE 3

교환?

10

Page 11: [211] 네이버 검색과 데이터마이닝

랭킹 시스템

1

2

3

[능력] =[순수능력]+[위치능력]

𝜂1

𝜂2

𝜂3

100 = 70 + 30

90 = 75 + 15

50 = 45 + 5

11

Page 12: [211] 네이버 검색과 데이터마이닝

랭킹 시스템

추정이 잘됨 ( 분산 : 1 ) 추정이 잘 안됨 (분산 : 3 ) 𝜂1

𝜂2

𝜂3

100 = 70 + 30

90 = 75 + 15

50 = 45 + 5

12

Page 13: [211] 네이버 검색과 데이터마이닝

랭킹 시스템

통계분야 데이터 마이닝 전문가

13

Page 14: [211] 네이버 검색과 데이터마이닝

랭킹 시스템

통계 KDD 머신러닝

14

Page 15: [211] 네이버 검색과 데이터마이닝

2

15

Page 16: [211] 네이버 검색과 데이터마이닝

기술 ..

16

Page 17: [211] 네이버 검색과 데이터마이닝

최근 이야기 - LDA

corpus document

17

Page 18: [211] 네이버 검색과 데이터마이닝

LDA - 이기기 위해서.

D1 M개 w1 w2 w3

wN

… …

w4

z1 z2 z3 z4

zN

z = multinomial(θ) θ = <θ1,θ2,θ3 … ,θk >

θ = Dir(α) α = <α1,α2,α3 … ,αk>

z = <z1,z2,z3 … ,zN>

zn = <zn1, zn

2, zn3, .., zn

k > Z11=1 β : p(word, topic)

K

V

β11 β12 … β1v

β21 β22 … β2v

… …

βk1 βk2 … βkv

K : topic 수

Latent

Dirichlet

Allocation

18

Page 19: [211] 네이버 검색과 데이터마이닝

LDA

19

BLOCK OUT

Page 20: [211] 네이버 검색과 데이터마이닝

LDA

20

Page 21: [211] 네이버 검색과 데이터마이닝

LDA - 실험

#Cluster 국가기관

#Cluster 복지 #Cluster 슈퍼스타k

#Cluster 주거

기획재정부 건강보험 슈스케 시프트

외교통상부 4대보험 크리스티나 보금자리주택

중소기업청 4대보험포털사이트 신지수 국민임대아파트

농림수산식품부 고용보험관리공단 이정아 주택관리공단

지식경제부 건설기술인협회 임윤택 한국주택금융공사

여성가족부 실업급여 동경소녀 질바이질스튜어트

국회 고용산재토탈서비스

도대윤 보금자리론

21

Page 22: [211] 네이버 검색과 데이터마이닝

LDA - 분산처리

22

Page 23: [211] 네이버 검색과 데이터마이닝

LDA – so what?

23

Page 24: [211] 네이버 검색과 데이터마이닝

반대 사례 – 실시간 검색어

24

Page 25: [211] 네이버 검색과 데이터마이닝

실시간 검색어 www.cs.cmu.edu/~neill/papers/eventdetection.pdf )

25

BLOCK OUT

BLOCK OUT

BLOCK OUT

BLOCK OUT

Page 26: [211] 네이버 검색과 데이터마이닝

3

26

Page 27: [211] 네이버 검색과 데이터마이닝

좋은 목적..

27

Page 28: [211] 네이버 검색과 데이터마이닝

아직도.. – 협력필터

28

Page 29: [211] 네이버 검색과 데이터마이닝

협력필터

Wij : item i와 j간의 weight Conditional probability를 이용하여 score를 계산

qi : item의 특성을 n개의 feature로 표현

pu : 사용자의 특성을 n개의 feature로 표현 사용자와 아이템을 똑같은 n차원의 feature로 표현하여 둘의 곱으로 선호도를 구함. 전역적인 특성이 있음

w : feature의 weight Ii : i 번째 아이템의 feature 각 feature의 global한 weght를 구하여 적용한다.

Neighborhood model

1 Factor model 2 Contents model 3

User behavior 이용 Contents 정보 이용 User behavior 이용

𝑆𝑐𝑜𝑟𝑒𝑢𝑖 = 𝑤𝑖𝑗𝑃 𝑑𝑖 𝑑𝑘 +

𝑗∈𝑅 𝑢

𝑞𝑖𝑇 ∙ 𝑝𝑢 + 𝑤 ∙ 𝐼𝑖 𝐼𝑗

𝑗∈𝑅 𝑢

29

BLOCK OUT

Page 30: [211] 네이버 검색과 데이터마이닝

협력필터

30

Page 31: [211] 네이버 검색과 데이터마이닝

협력필터

31

Page 32: [211] 네이버 검색과 데이터마이닝

4

32

Page 33: [211] 네이버 검색과 데이터마이닝

Domain dependent Training-Test Scheme.

TRAINING DATA TEST DATA

33

Page 34: [211] 네이버 검색과 데이터마이닝

정리하면..

34

Page 35: [211] 네이버 검색과 데이터마이닝

35

Page 36: [211] 네이버 검색과 데이터마이닝

36

BLOCK OUT

Page 37: [211] 네이버 검색과 데이터마이닝

37

BLOCK OUT

Page 38: [211] 네이버 검색과 데이터마이닝

네이버 ‘Realtime’ 프로젝트

CUVE

blog

news

post

sns

.

.

.

RED

Realtime 데이터

이벤트 추출 & 점수

BigBrew

실시간 색인

REACT

Dynamic Relay

Real Listener

USER

see

act

react

이벤트 탐지 & 색인 전달 및 반응

38

Page 39: [211] 네이버 검색과 데이터마이닝

39

Page 40: [211] 네이버 검색과 데이터마이닝

CUVE

blog

news

post

sns

.

.

.

RED

Stat Analizer

segment Analizer

Event score

Event score

Event score

.. Event DB

Realtime 데이터 이벤트 점수 이벤트 저장

40

Page 41: [211] 네이버 검색과 데이터마이닝

Stat Analizer

Segment Analizer

event scorer

1. Event Detection

2. Compute Real Score

41

Page 42: [211] 네이버 검색과 데이터마이닝

RED

42

Page 43: [211] 네이버 검색과 데이터마이닝

RED

2015년 4월 16일 18:30분 ‘부산 사직 구장’

0.89

0.92

0.87

0.65 Real Score = now + interest

10초전

3분전

8분전

33분전

43

Page 44: [211] 네이버 검색과 데이터마이닝

44

BLOCK OUT

Page 45: [211] 네이버 검색과 데이터마이닝

45

Page 46: [211] 네이버 검색과 데이터마이닝

46

Page 47: [211] 네이버 검색과 데이터마이닝

47