Upload
naver-d2
View
8.074
Download
3
Embed Size (px)
Citation preview
1
2
네이버 & 데이터 마이닝
주변핫검색
3
옛날 이야기 – 연관 검색어
Support Confidence Frequent Subset
4
연관 검색어
5
연관 검색어
전체 1000명중 100명이 evidence가 되는 경우 전체 1000명중 10명이 evidence가 되는 경우 전체 1000명중 5명이 evidence가 되는 경우
6
연관 검색어
7
1
8
기술을 이긴다는 것 …
9
랭킹 시스템
1
2
3
100클릭
200클릭
50클릭
CASE 1
교환 100클릭
100클릭
50클릭
CASE 2
교환 100클릭
90클릭
50클릭
CASE 3
교환?
10
랭킹 시스템
1
2
3
[능력] =[순수능력]+[위치능력]
𝜂1
𝜂2
𝜂3
100 = 70 + 30
90 = 75 + 15
50 = 45 + 5
11
랭킹 시스템
추정이 잘됨 ( 분산 : 1 ) 추정이 잘 안됨 (분산 : 3 ) 𝜂1
𝜂2
𝜂3
100 = 70 + 30
90 = 75 + 15
50 = 45 + 5
12
랭킹 시스템
통계분야 데이터 마이닝 전문가
13
랭킹 시스템
통계 KDD 머신러닝
14
2
15
기술 ..
16
최근 이야기 - LDA
corpus document
17
LDA - 이기기 위해서.
D1 M개 w1 w2 w3
wN
… …
w4
z1 z2 z3 z4
zN
z = multinomial(θ) θ = <θ1,θ2,θ3 … ,θk >
θ = Dir(α) α = <α1,α2,α3 … ,αk>
z = <z1,z2,z3 … ,zN>
zn = <zn1, zn
2, zn3, .., zn
k > Z11=1 β : p(word, topic)
K
V
β11 β12 … β1v
β21 β22 … β2v
… …
βk1 βk2 … βkv
K : topic 수
Latent
Dirichlet
Allocation
18
LDA
19
BLOCK OUT
LDA
20
LDA - 실험
#Cluster 국가기관
#Cluster 복지 #Cluster 슈퍼스타k
#Cluster 주거
기획재정부 건강보험 슈스케 시프트
외교통상부 4대보험 크리스티나 보금자리주택
중소기업청 4대보험포털사이트 신지수 국민임대아파트
농림수산식품부 고용보험관리공단 이정아 주택관리공단
지식경제부 건설기술인협회 임윤택 한국주택금융공사
여성가족부 실업급여 동경소녀 질바이질스튜어트
국회 고용산재토탈서비스
도대윤 보금자리론
21
LDA - 분산처리
22
LDA – so what?
23
반대 사례 – 실시간 검색어
24
실시간 검색어 www.cs.cmu.edu/~neill/papers/eventdetection.pdf )
25
BLOCK OUT
BLOCK OUT
BLOCK OUT
BLOCK OUT
3
26
좋은 목적..
27
아직도.. – 협력필터
28
협력필터
Wij : item i와 j간의 weight Conditional probability를 이용하여 score를 계산
qi : item의 특성을 n개의 feature로 표현
pu : 사용자의 특성을 n개의 feature로 표현 사용자와 아이템을 똑같은 n차원의 feature로 표현하여 둘의 곱으로 선호도를 구함. 전역적인 특성이 있음
w : feature의 weight Ii : i 번째 아이템의 feature 각 feature의 global한 weght를 구하여 적용한다.
Neighborhood model
1 Factor model 2 Contents model 3
User behavior 이용 Contents 정보 이용 User behavior 이용
𝑆𝑐𝑜𝑟𝑒𝑢𝑖 = 𝑤𝑖𝑗𝑃 𝑑𝑖 𝑑𝑘 +
𝑗∈𝑅 𝑢
𝑞𝑖𝑇 ∙ 𝑝𝑢 + 𝑤 ∙ 𝐼𝑖 𝐼𝑗
𝑗∈𝑅 𝑢
29
BLOCK OUT
협력필터
30
협력필터
31
4
32
Domain dependent Training-Test Scheme.
TRAINING DATA TEST DATA
33
정리하면..
34
35
36
BLOCK OUT
37
BLOCK OUT
네이버 ‘Realtime’ 프로젝트
CUVE
blog
news
post
sns
.
.
.
RED
Realtime 데이터
이벤트 추출 & 점수
BigBrew
실시간 색인
REACT
Dynamic Relay
Real Listener
USER
see
act
react
이벤트 탐지 & 색인 전달 및 반응
38
39
CUVE
blog
news
post
sns
.
.
.
RED
Stat Analizer
segment Analizer
Event score
Event score
Event score
.. Event DB
Realtime 데이터 이벤트 점수 이벤트 저장
40
Stat Analizer
Segment Analizer
event scorer
1. Event Detection
2. Compute Real Score
41
RED
42
RED
2015년 4월 16일 18:30분 ‘부산 사직 구장’
0.89
0.92
0.87
0.65 Real Score = now + interest
10초전
3분전
8분전
33분전
43
44
BLOCK OUT
45
46
47