34
오픈SNS 연구소 이상호

온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

Embed Size (px)

DESCRIPTION

2013 한국데이터사이언스학회 학술대회 및 정기총회(2013. 11. 29) 오픈 SNS 이상호 소장의 “온라인 물가지수 분석을 위한 빅데이터 융합분석 방법” 발표 자료입니다.

Citation preview

Page 1: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

오픈SNS 연구소 이상호

Page 2: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

I. 온라인 물가지수 개요

II. 한국형 BPP 분석 방법론

III. 감성지수 분석 방법론

IV. 온라인 물가지수 융합분석

V. 제약사항

VI. 결론 및 향후 발전 방향

Page 3: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

1. CPI

2. 온라인 물가지수

3. CPI 단점

4. 온라인 물가지수 강점

5. 한국형 BPP & MBPP

6. 감성지수

Page 4: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

도시가계가 일상생활을 영위하기 위해 구입하는 상품가격과 서비스 요금의 변동을 종합적으로 측정하기 위해 작성하는 지수

2010년을 기준(=100)으로 가계소비지출에서 차지하는 비중이 1/10,000 이상인 품목 481개를 대상으로 작성

5년 단위 품목 및 기준 재설정

Page 5: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

데이터 모델을 온라인상으로 한정하여 CPI와 같이 물가지수를 산정

구글물가지수(Google Price Index) ◦ 2013.10 전미실물경제협회(NABE) 콘퍼런스

BPP(Billion Price Project) ◦ MIT의 물가지수 프로젝트

◦ 국가별 대표적인 온라인 마트의 가격 동향 조사결과를 지수화

Page 6: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

소비자의 구매 패턴 변화 반영이 어려움

생활비 추가 지출분에 대한 물가지수 반영이 어려움

물가지수 분석의 신속성과 예측이 어려움

Page 7: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

시간적 측면

• web crawling 이용하여 빠른 시간 내에 대용량 데이터 수집

비용 측면

• 온라인에서 판매되는 상품의 가격 정보를 기계적으로 수집하기 때문에 비용절감

기술의 진보

• 대용량 수집/저장/분석 및 변동된 가격 정보를 자동 추출하는 기술 자동화

Page 8: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

MIT

한국형

- 전세계적으로 물가지수 조사 - 국가별 대표적인 온라인 마켓을 대상으로 조사 - 특정 품목에 한정

- CPI 조사 품목에 대해 전반적인 조사 가능

- 국내 온라인 마켓을 전수 조사

- Modified BPP

- 온라인 마켓의 특성 응용

- 많이 팔리는 품목에 가중치를 두는 방식

MBPP 한국형 BPP

Page 9: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

일반 소비자가 느끼는 물가에 대한 감성적 지수

“싸다”, ”비싸다”에 대한 의견으로 소비자가 체감하는 느낌에 대한 평가 지수

주관적 기준이며, 절대적인 평가기준은 없음

집단지성처럼 많은 통계치가 모였을 때 의미를 가짐

Page 10: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

1. 산출 방법론

2. 산출 예

3. 산출 절차

Page 11: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

개별 품목 지수

Jevons Index 품목 내 가중치가

없는 기하평균 품목지수

Chain Index 기준시점부터 현재시점까지

계산된 개별 품목지수의 곱으로

기준시점 기준 지수.

Supermarket Index 산술 가중 평균을 이용한

최종 BPP물가지수

시점 t에서의 품목 레벨 지수.

품목 물가지수 (기준시점부터 현재시점까지)

BPP 물가지수

산출

Page 12: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

기본분류ID 품목ID site 상품 id 일자 오늘가격

A015 48 emart 해참기름 E12321 09/01 7000

A015 48 emart 오참기름 E12327 09/01 6600

A015 48 homeplus 오참기름 H22221 09/01 6500

A015 48 lotte 그냥참기름 L0001 09/01 7200

A015 49 emart 해식용유 E12355 09/01 4000

A015 49 homeplus 해식용유 H22223 09/01 3800

A015 49 lotte 그냥식용유 L00011 09/01 3900

…..

기본분류ID 품목ID site 상품 id 어제가격 오늘가격

A015 48 emart 해참기름 E12321 09/02 7100

A015 48 emart 오참기름 E12327 09/02 6600

A015 48 homeplus 오참기름 H22221 09/02 6700

A015 48 lotte 그냥참기름 L0001 09/02 7500

A015 49 emart 해식용유 E12355 09/02 4100

A015 49 homeplus 해식용유 H22223 09/02 4100

A015 49 lotte 그냥식용유 L00011 09/02 4350

…..

Page 13: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

기본분류ID 품목ID site 상품 id 9/1 9/2

A015 48 emart 해참기름 E12321 7000 7100

A015 48 emart 오참기름 E12327 6600 6600

A015 48 homeplus 오참기름 H22221 6500 6700

A015 48 lotte 그냥참기름 L0001 7200 7500

A015 49 emart 해식용유 E12355 4000 4100

A015 49 homeplus 해식용유 H22223 3800 4100

A015 49 lotte 그냥식용유 L00011 3900 4350

…..

Step 0. 데이터 준비

Page 14: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

기본분류ID 품목ID site 상품 id 어제가격 오늘가격

A015 48 emart 해참기름 E12321 7000 7100

A015 48 emart 오참기름 E12327 6600 6600

A015 48 homeplus 오참기름 H22221 6500 6700

A015 48 lotte 그냥참기름 L0001 7200 7500

A015 49 emart 해식용유 E12355 4000 4100

A015 49 homeplus 해식용유 H22223 3800 4100

A015 49 lotte 그냥식용유 L00011 3900 4350

…..

Step1. 개별품목지수 계산

ex. 48 품목에 대한 개별품목지수= 1.0215577200

7500*

6500

6700*

6600

6600*

7000

71004

개별 품목 지수 품목 물가지수 (기준시점부터 현재시점까지)

BPP 물가지수

산출

Page 15: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

Step2. 품목물가지수 계산

- 기준시점 9/1, 현재시점 9/5 가정

품목ID 날짜 개별품목지수 품목물가지수 계산 품목물가지수

48 09/ 01 1.0216 =1.0216 1.0216

48 09/ 02 1.0355 =1.0216*1.0355 1.0578

48 09/ 03 1.4562 =1.0216*1.0355*1.4562 1.5404

48 09/ 04 1.0523 =1.0216*1.0355*1.4562*1.0523 1.6210

48 09/ 05 1.0123 =1.0216*1.0355*1.4562*1.0523*1.0123 1.6409

49 09/ 01 1.0015 =1.0015 1.0015

49 09/ 02 1.0322 =1.0015*1.0322 1.0337

49 09/ 03 1.2455 =1.0015*1.0322*1.2455 1.2875

49 09/ 04 1.0015 =1.0015*1.0322*1.2455*1.0015 1.2895

49 09/ 05 1.0565 =1.0015*1.0322*1.2455*1.0015*1.0565 1.3623

개별 품목 지수 품목 물가지수 (기준시점부터 현재시점까지)

BPP 물가지수

산출

Page 16: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

Step3. BPP물가지수 계산

- 48 품목 가중치가 0.6이고 49 품목 가중치가 0.7이라고 가정

품목ID 날짜 개별품목지수 품목물가지수 계산 품목물가지수

48 09/ 01 1.0216 =1.0216 1.0216

48 09/ 02 1.0355 =1.0216*1.0355 1.0578

48 09/ 03 1.4562 =1.0216*1.0355*1.4562 1.5404

48 09/ 04 1.0523 =1.0216*1.0355*1.4562*1.0523 1.6210

48 09/ 05 1.0123 =1.0216*1.0355*1.4562*1.0523*1.0123 1.6409

49 09/ 01 1.0015 =1.0015 1.0015

49 09/ 02 1.0322 =1.0015*1.0322 1.0337

49 09/ 03 1.2455 =1.0015*1.0322*1.2455 1.2875

49 09/ 04 1.0015 =1.0015*1.0322*1.2455*1.0015 1.2895

49 09/ 05 1.0565 =1.0015*1.0322*1.2455*1.0015*1.0565 1.3623

날짜 BPP물가지수계산 BPP물가지수

09/ 01 =0.6/(0.6+0.7)*1.0216+0.7/(0.6+0.7)*1.0015 1.0108

09/ 02 =0.6/(0.6+0.7)*1.0578+0.7/(0.6+0.7)*1.0337 1.0448

09/ 03 =0.6/(0.6+0.7)*1.5404+0.7/(0.6+0.7)*1.2875 1.4042

09/ 04 =0.6/(0.6+0.7)*1.621+0.7/(0.6+0.7)*1.2895 1.4425

09/ 05 =0.6/(0.6+0.7)*1.6409+0.7/(0.6+0.7)*1.3623 1.4909

개별 품목 지수 품목 물가지수 (기준시점부터 현재시점까지)

BPP 물가지수

산출

Page 17: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

파싱 저장 수집 QC 지수 산출

시각화

Page 18: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

파싱 저장 수집 QC 지수 산출

시각화

Page 19: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

HTML

제목 품목 ID 품목명 상품ID 가격 배송료

[반값도전] 이마트 드림뷰2 LED TV 10.. TV0947 LEDTV LEDTV654 699,000 30,000

파싱 저장 크롤링

(crawling) QC

지수 산출

시각화

Page 20: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

파싱 저장 수집 QC 지수 산출

시각화

제목 품목 ID 품목명 상품ID 가격 배송료

[반값도전] 이마트 드림뷰2 LED TV 10.. TV0947 LEDTV LEDTV654 699,000 30,000

Site 코드 수집일시 제목 품목 ID 품목명 상품ID 가격 배송료 노출 페이지 페이지내 순서

emart 20131111 [반값도전] 이마트 드림뷰2 LED TV 10..

TV0947 LEDTV LEDTV654 699,000 30,000 1 1

... ... ... ... ... ... ... ... ... ...

Page 21: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

파싱 (Parsing)

저장 크롤링

(crawling) QC

지수 산출

시각화

Site 코드 수집일시 제목 품목 ID 품목명 상품ID 가격 배송료 노출 페이지 페이지내 순서

emart 20131111 [반값도전] 이마트 드림뷰2 LED TV 10..

TV0947 LEDTV LEDTV654 699,000 30,000 1 1

... ... ... ... ... ... ... ... ... ...

BPP 변화 추이

Page 22: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

1. 소셜 감성분석 개요

2. 분석 방법론

Page 23: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

인터넷에는 상품, 브랜드, 인물, 이슈 등의 다양한 분야에 대한 의견들이

블로그, 카페, 커뮤니티 등의 다양한 채널을 통해 존재

사용자들의 의견을 주제별로 수집하여, 긍정/부정을 평가하고

이에 대한 속성별, 시간별, 출처별로 통계를 리포팅

긍정/부정을 지수화

Page 24: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

웹 수집기

SNS

블로그/카페

뉴스/게시판

데이터 색인

감성 추출기

분석 Scheduler

Buzz 통계 및 키워드네트워크

유사문서 필터

주제적합 문서판단

수집댓글 DB

수집문서 DB

감성사전 DB

색인 DB

통계DB

감성분석 DB

사용자

Page 25: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법
Page 26: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

1. 융합분석 의도

2. 시각화 및 비교분석

Page 27: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

단일 품목별 급등락하는 시점에 소비자가 느끼는 가격에 대한 감성분석

정성적으로 느끼는 체감 가격을 정량적으로 수치화

BPP의 변곡점별 감성분석 결과에 대한 모니터링

Page 28: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

BPP 변화 추이

감성지수 BPP

Page 29: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

과연 팔리는 물건인가? ◦ 온라인 업체의 판매량 및 품목에 대한 조사 필요

매일 전수조사가 가능한가? ◦ 네이버 지식쇼핑 건수 : 1억건 이상

온라인상으로 수집하지 못하는 품목은? ◦ 지역별 버스요금 등

잘못된 가격정보 게시 ◦ 부정확한 전국 주요소별 가격 정보 등

Page 30: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

1. 결론

2. 지역을 고려한 분석

3. MBPP에 대한 연구

Page 31: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

BPP 효용성 ◦ 국가별 CPI와 비교시 추세가 아주 유사함

◦ 특정 국가는 CPI가 BPP대비 월등히 낮게 발표되고 있음

CPI 비교 ◦ 대체수단으로서의 BPP는 더 연구가 필요함

◦ BPP가 추세적으로 유사한 경우 활용성이 있을 것으로 예상

◦ CPI의 보조지표로 BPP 활용 가능

Page 32: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

물가는 지역별로 차이가 있음

지역 고려 시 온라인 물가지수 문제점 ◦ 대부분의 온라인 사이트는 전국단위로 구성됨

온라인화 되어 있는 지역별 재래시장 및 도소매 시장 가격 추적 필요

Page 33: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

어떤 것을 많이 살까?

Page 34: 온라인 물가지수 분석을 위한 빅데이터 융합분석 방법