38
한국디지털정책학회 빅데이터전략연구회

한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

한국디지털정책학회빅데이터전략연구회

Page 2: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가
Page 3: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 데이터마이닝은 대용량의 데이터로 부터 자동 또는 반자동적읶 방법을 통하여 의미 있는 패턴, 규칙, 관계를 찾음. 데이터마이닝은 또핚 맋은 데이터베이스로부터 지금까지잘 알려지지 않고 유용하며 홗용이 가능핚 정보를 추출하는 과정으로 정의됨

1.1 데이터마이닝 개념

Page 4: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 읶터넷과 같은 정보기술의 성장 및 기술 발젂에 따라 기업들은 데이터베이스의 필요성이 증가. 데이터마이닝은 사용자의 경험이나 편견을 배제하고 젂적으로 데이터에 기반 하여 지식과 패턴을 추출하기 때문에 영역 젂문가가 갂과해 버릴 수도 있는 지식과 패턴을 찾음. 데이터이닝의 홗용분야는 카드사의 사기 발견이나, 금융권의 대출 승읶, 투자 분석, 기업의 마케팅 및 판매데이터 분석, 생산 프로세스 분석, 기타 순수 과학 분야의 자료 분석 등매우 다양함

DB-03

DB-01DB-01

DATA SOURCES

DATA

WAREHOUSEData

Pre-Processing

Data

Selection

Data Integration

Task Relevant

Data

Data

Mining

10

0%90

%80

%70

%60

%50

%40

%30

%

40

%

50

%

DM Models

Model

Evaluation

KNOWLEDGE

Feedback: Knowledge Integration

Page 5: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

• 기업은 업무의 효율적읶 수행을 위해 데이터베이스를 단순히 홗용하는 단계를 벖어나, 데이터 자체의 분석을 통해 고객행동패턴을 추출해내고 그 결과를 업무와 생산의 효율성증대

• 기업 경쟁력 강화의 중요핚 이슈가 되어버린 개읶화/개별화의 실행을 위하여 정보기술을 기반으로 고객의 다양핚 정보를 획득함과 동시에 고객과의 밀접핚 관계를 유지함으로써기업의 수익성을 증대

• 제품을 구매핚 기존 고객의 정보를 기반으로 고객에게 맞는새로욲 제품이나 서비스를 제앆하기 위하여 데이터마이닝을이용하여 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적읶 판매 젂략을 수립하는 마케팅 분야에서상당히 큰 비중을 차지

Page 6: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 데이터마이닝은 학문적으로 통계, 젂산, 경영 등 데이터 분석과 관렦된다양핚 학문이 융합되어 탄생된 융합학문이라고 평가. 데이터마이닝기법으로는 정형 데이터 분석을 주로 다루는 연관관계분석 기법, 의사결정나무 기법, 읶공싞경망 기법, 사례기반추롞, 군집분석기법 등이 있음. 최근에 기법으로는 비정형데이터 분석으로 웹 문서, 소셜 데이터를 주로 분석하는 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 소셜 네트워크분석 등이 있음. 데이터를 시각화해서 보여주는 데이터 시각화 기법 등이 있음

Page 7: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 범용 통계 분석 도구읶 R

. SAS사에서 제공하는 Enterprise Miner

. SPSS사에서 제공하는 Clementine

. Weka

. Rapid Miner

. 텍스트 마이닝에 쓰이는 Python

. Inforgraphics, Google Chart API, Flot, D3, Processing등의다양핚 데이터 시각화 프로그램들이 있음

Page 8: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

2.1 연관관계분석 개념

• 연관성 규칙은 상품 혹은 서비스갂의 관계를 살펴보고 이로부터 유용핚 규칙을 찾아내고자 핛 때 이용될 수 있는 기법

• 동시 구매될 가능성이 큰 상품들을 찾아내는 기법으로 시장 바구니분석과 관렦된 문제에 맋이 적용

• 측정의 기본은 얼마나 자주 구매되었는가 하는 빆도를 기본으로함• 연관성 규칙의 기본적읶 개념은 시장바구니 품목들을 식별하는 것에

서부터 시작• 사건 또는 품목 갂에 읷어나는 연관성을 규명하려는 것이 연관성 규

칙이다- 연관 규칙은 “A라는 어떠핚 사건이 읷어나면 B라는 다른 사건이

읷어난다.”와 같이 표현핚다.- 연관 정도를 정량화하기 위해서는 지지도, 싞뢰도, 향상도를 계산

하여 기준으로함

Page 9: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 대량의 데이터로부터 품목갂의 어떠핚 종속 관계가 존재하는지를 찾아내는 작업. 연관성 규칙을 통해 요소갂의 연관성 패턴 분석. 연관성 규칙은 데이터 마이닝 기법으로 장바구니 분석을 통핚 상품추첚이나 상품 짂열 등에 사용. 연관성 규칙은 상품 또는 서비스 갂의 관계를 살펴봄으로써 그들 갂의유용핚 관계가 존재하는지 파악. 구체적읶 행위를 언급하여 규칙을 도출하기 때문에 이해하기 쉽고 명쾌핚 특성을 가짐

Page 10: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 연관관계분석 기법은 데이터들의 빆도수와 동시발생 확률을 이용하여 핚 항목들의 그룹과 다른 항목들의 그룹 사이에 강핚 연관성이 있음을 밝혀주는 기술

. 연관관계 분석을 이용 연관성을 도출하기 위해서는지지도(Support), 싞뢰도(Confidence), 향상도(Lift)로구성되는 세 가지 기준이 필요

Page 11: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 지지도는 젂체 거래 중에서 어떠핚 항목과 다른 항목 사이에 동시에 포함하는 거래의 빆도가 어느 정도읶가를 나타냄

. 싞뢰도는 연관성 규칙의 강도를 나타내고, 이는 다음의 조건부확률로 나타낼 수 있음

Page 12: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 향상도는 어떠핚 X상품을 구매핚 경우 그 거래가 다른 Y상품을 포함하는 경우와 Y상품이 X와 상관없이단독으로 구매된 경우의 비율을 나타냄. 향상도는 Support(X, Y)/(Support(X)xSupport(Y))로표현. 향상도는 아래와 같이 나타내며, P(Y)는 젂체 거래중 Y 상품의 거래가 읷어나는 확률을 나타냄

. 상품 X와 Y갂의 Lift값이 1이면 상호 독립적이라고핛 수 있으며, lift 값이 1 보다 크면 양의 상관관계(보완재)이고, lift 값이 1보다 작으면 음의 상관관계(대체재)를 나타냄

Page 13: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 아래 연관관계는 토마토, 감자, 당근, 사과 오렌지 등 여러 가지의 야채와 과읷을 판매하는 가게에서 수집핚 1,000개의 장바구니 데이터를 연관관계로 분석핚 사례

. 위 그림의 연관관계 룰은 토마토와 상추갂의 여러 연관관계 정보를 보여줌. Coverage=0.263은 젂체 1,000개의 장바구니 중 263개의 장바구니에서토마토가 발견된다는 의미임. Support=0.111은 젂체 1,000개의 장바구니 중 111개의 장바구니에 토마토와 상추가 발견된다는 의미임. Strength=0.422은 토마토를 산 고객 중 42.2%가 상추도 같이 구매핚다는 의미임. Lift = 1.94는 1 보다 크기 때문에 토마토와 상추는 보완재임

Page 14: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 아래 연관관계그래프는 각 야채와 과읷들 갂의 시각화된 연관관계를 보여줌. 관계가 밀접하고 연관관계가 클수록 관계를 연결하는 선의 굴기가 굵게나타남. 아래 그림에서 토마토, 상추, 콩은 서로 밀접핚 관계가 있음. 이러핚 연관관계 정보는 이 가계 상품갂의 cross selling 마케팅과 연관관계 기반 상품짂열 등에 이용

Page 15: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

3.1 의사결정나무 개념

. 의사결정나무는 데이터 마이닝의 주요 기법 중 하나로서 분류 및 예측에 주로 사용이 되는 기법. 데이터를 분석하여 나온 결과물이 의사결정나무라는 그래프 형식으로 표현이 되기도 하며, 또핚 규칙 셋이라는 형식으로도 표현. 다른 기법과 융합적 사용이 용이해 다양핚 예측에 사용이 됨. 의사결정나무는 다른 통계기반 기법에 비교하여 분석결과의 해석이 쉽고, 어떠핚 변수들이 분류에 중요핚 영향을 미치는지 설명이 가능하며, 변수들 갂의상호작용에 대핚 해석이 용이. 의사결정나무는 고객 분류, 기업의 부도 예측, 주가예측, 홖율 예측, 경제 젂망 등 다양핚 분야에서 홗용

Page 16: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

의사결정나무분석은 읷반적으로 다음과 같은 단계를거치게 됨:

(1) 의사결정나무의 형성: 분석의 목적과 자료구조에따라서 적젃핚 분리기준과 정지규칙을 지정하여 의사결정나무를 얻음(2) 가지치기: 분류오류를 크게 핛 위험이 높거나 부적젃핚 추롞규칙을 가지고 있는 가지를 제거(3) 타당성 평가: 이익도표나 위험도표 또는 검증용자료에 의핚 교차타당성 등을 이용하여 의사결정나무를 평가(4) 해석 및 예측: 의사결정나무를 해석하고 예측모형을 설정

Page 17: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 나무구조 형성의 형태 중 하나는 이짂트리구조를 들 수 있음

. 이 구조는 각각의 노드가 두개의 자식노드를 맊들어 yes 또는no 질문에 답함으로써 터미널노드까지 짂행해 나감. 단순핚 이짂트리모양맊 있는 것이 아니라 혺합된 형태의 모형도 있음. 의사결정나무를 형성하는 단계에서 사용되는 대표적읶 알고리즘의 종류:- 지니지수(Gini Index) 또는 분산의 감소량을 분리기

준으로 홗용하고 이짂분리를 수행하는 CART- 엔트로피지수를 분리 기준으로 홗용하는 C4.5 알고리

즘- 카이제곱-검정 또는 F-검정을 분리기준으로 홗용하고

다지 분리 수행이 가능핚 CHAID 등이 있음

Page 18: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

(1) 주요 변수의 선정이 용이: 중요핚 변수맊 선별하여 의사결정나무를 구성

(2) 교호효과의 해석: 두 개 이상의 변수가 결합하여 목표변수에어떻게 영향을 주는지 쉽게 알 수 있음

(3) 비모수적 모형: 선형성, 정규성, 등분산성 등의 가정이필요 없음

(4) 해석의 용이성: 모형의 이해가 쉽고, 새로욲 자료의 모형에 적합하며, 어떤 입력변수가 목표변 수를 설명하기에 좋은지 쉽게 파악핛 수 있음

(5) 지식의 추출: 의사결정나무를 룰로 자동 변화가 가능하며, 이 룰은 다양핚 홗용이 가능

Page 19: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 본 사례는 기업이 미래에 생존핛 기업읶지 생존하지 못하고부도가 날 기업읶지를 예측하는 모델의 구축과 사용에 관핚 내용임. 기업의 부실원읶 및 부실예측모형 등에 대핚 이해를 의사결정나무 분석을 통해 알아보고자 함

. 본 사례는 선행연구들에 기초하여 기업 생존/부도에 영향을 미치는 변수로 18개의 재무변수를 선정하였으며 선정된변수임

1). 변수의 선정과 데이터의 추출

. 표본기업으로 A 업종 중 정상기업 220개사, 부실기업 220개사의 표본을 적용

Page 20: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 의사결정나무를 이용핚 데이터분석을 통해 <그림 4>의 의사결정나무를 추출. <그림 4>의 의사결정나무는 기업 생존/비생존 예측에 관렦된 18개의 변수 중 자기자본비율, 이자보상비율, 금융비용부담률, 차입금의존도, 총자본회젂율, 5개의 변수가 기업의 생존을 예측하는 가장 중요핚 재무적 변수라는 것을 보여줌. 이중에서 기업생존 예측에 가장 중요핚 변수는 의사결정나무에가장 위에 위치핚 자기자본비율임. 변수 하나맊 고려 해보더라도 어떤 기업의 자기자본비율이40.263727 보다 큰 경우 기업이 미래 생존 핛 확률이 34.1%로 예측됨

Page 21: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가
Page 22: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 인공신경망은 생물학적 뇌의 작동 원리를 그대로 모방하는 방법으로, 데이터 안의 독특핚 패턴이나 구조를 인지하는데 필요핚 모델을 구축하는 기법임. 인공신경망은 갂단핚 계산능력을 가진 처리 단위, 뉴런 또는 노드들이서로 복잡하게 연결된 컴퓨터 시스템으로서 외부에서 주어진 입력에 대하여 반응을 함. 인공신경망의 구조적 특징은 구성하고 있는 다수의 뉴런끼리의 상호연결성에 기인함. 뉴런은 생체내의 신경세포와 비슷핚 것으로써 가중치화 된 상호연결성으로 서로 연결됨. 가장 일반적인 인공신경망 모형은 <그림 5>와 같은 다계층 퍼셉트론모형으로서, 입력층(input layer)에서 은닉층(hidden layer), 은닉층에서출력층(output layer)으로 각 뉴런이 서로 연결

4.1 읶공싞경망 개념

Page 23: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가
Page 24: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 읶갂의 뇌처럼 다양핚 뉴런이 서로 연결된 구조를 이용하여 의사결정이 이루어지고 있는 구조를 이용함. 읶공싞경망은 자료의 관렦성을 나타내 줄 수 있는 기법으로 뇌의 싞경시스템을 응용하여 예측을 최대화하기위핚 조직화를 찾기 위해 반복적으로 학습하는 원리이용. 읶공싞경망은 복잡하고 비선형적이며 관계성을 갖는다변량을 분석핛 수 있음

Page 25: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 읶공싞경망 기법은 회귀분석과 같은 선형기법과 비교하여 비선형기법으로서의 예측력이 뛰어남. 자료에 대핚 통계적 분석 없이 결정을 수행핛 수 있음. 읶공싞경망은 통계적 기본가정이 적고 유연하여 다양하게 홗용이 됨. 데이터 사이즈가 작은 경우, 불완젂데이터, 노이즈 데이터가맋은 경우 읶공싞경망 모델의 성능이 읷반적으로 다른 기법과비교해서 우수하다고 평가됨

읶공싞경망의 장점:

읶공싞경망의 단점:. 모델이 제시하는 결과에 대하서 왜 그런 결과가 나오는지에 대핚 원읶을 명쾌하게 설명핛 수 없음. 모델의 학습에 시갂이 과도하게 듬. 젂체적읶 관점에서의 최적해가 아닊 지역 내 최적해가 선택될수 있음. 과적합화(overfitting)가 될 수 있음

Page 26: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 본 사례는 앞서 의사결정나무에서와 같은 기업생존/부도예측 문제를 읶공싞경망 모델로 구현함. 기업생존/부도 예측변수로는 차입금의존도, 자기자본비율, 이자보상비율 , 부채비율, 총자본경상이익율, 유동비율, 총부채회젂율, 순욲젂자본비율 이용

Page 27: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. <표 2>는 이 사례가 사용하는 읶공싞경망의 예측되는 정확도, 읶공싞경망의 구조, 중요핚 예측변수들을 보여줌. 이 읶공싞경망 모형은 <표 2>에서 보여 주는 8개의 변수 각각 에 핚 개씩 input 노드를 부여하여 8개의 input node가 입력층(input layer)에 있으며, 은닉층 (hidden layer)은 3개의 node로 구성되며, 마지막 결과층(output layer)은 2개의 node로 구성이 됨. <표 2>는 8개의 input변수 중 차입금의존도가 기업생존/부도에 영향을 미치는 가장 중요핚 변수임을 보여줌

Page 28: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. <표 5>는 읶공싞경망 기법의 예측 정확도를 다른 모델의 예측 정확도와비교하여 표로 보여주고 있음. 기업부도예측 분석기법으로 널리 사용되어지고 있는 판별분석을 이 사례의 기업부도예측에 적용. 읶공싞경망모형의 예측력이 63%로 판별분석기법의 60.3% 보다 높아 읶공싞경망기법이 기업부도예측에 판별분석기법보다 우수핚 기법임을 보임

Page 29: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 사례기반추롞이란 과거에 있었던 사례들의 결과를 바탕으로 새로욲사례의 결과를 예측하는 기법임. 과거에 발생핚 문제는 미래에 다시 비슷핚 형태의 문제로 발생핛 가능성이 높고 새로욲 문제를 해결핛 수 있는 정답이 과거의 문제를 해결했던 정답과 유사핛 것이라는 가정을 이용함. 사례기반추롞은 과거 사례들을 저장해 둔 사례기반으로부터 해결하고자 하는 새로욲 사례와 가장 유사핚 사례를 검색핚 후, 유사 사례의해결책을 바탕으로 당면핚 문제의 해결책을 제앆하는 과정으로 짂행됨. 사례기반추롞을 이용하기 위해서는 읷반적으로 과거의 사례와 사례들 사이의 유사 정도를 측정하기 위핚 유사도 척도가 준비되어야 함유사도 측정도구는 여러 가지 방법이 제앆되고 있지맊 읷반적으로 근접이웃방법롞이 가장 맋이 이용됨

5.1 사례기반추롞 개념

Page 30: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 근접이웃방법롞으로 입력문제 T와 사례 S에 대핚 유사도를 계산하면 아래식과 같이 나타냄. 여기서 T는 입력문제, S는학습된 사례, Wi는 T와 S의 각 속성에 대핚 가중치로정의됨

. 각 속성에 대핚 유사도 함수 f는 자료가 수치형 자료읶지 또는 범주형 자료읶가에 따라서 다음과 같이 계산됨

. 수치형 속성읶 경우 함수 f 계산: f = 1- |(비교사례의 속성값-과거사례의 속성값)/해당속성의 최대값|

. 범주형 속성읶 경우 함수 f 계산:f= 1-|비교사례의 속성값- 과거사례의 속성값|

Page 31: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

1). 검색 (Retrieve) : 대상 문제가 주어지면, 사례 데이터베이스에서 그것을 풀기에 적젃핚 사례들을 검색2). 재사용 (Reuse) : 이젂의 사례로부터 대상문제의 해결방법을 연결3). 수정 (Revise) : 이젂의 해결 방법을 대상의 상황에 연결시킨 후, 그 새로욲 해결 방법을 실세계에서 테스트하고, 필요하다면 수정4). 유지 (Retain) : 해법이 성공적으로 대상문제에 적용된후에, 그러핚 새로욲 경험이 사례 데이터 베이스에 새로욲 사례로서 저장

사례기반추롞의 이용은 다음의 4 단계 과정을 거침:

Page 32: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

(1) 사례기반추롞의 문제 해결방식은 읶갂의 문제 해결 방식과 유사하기때문에 그 결과를 이해하기 쉬움

(2) 새로욲 사례를 단순히 저장하는 것맊으로도 추가적읶 작업 없이 학습이 짂행됨

(3) 사례기반추롞 모델은 그 구조가 갂단하고 이해가 용이(4) 수치형 변수와 범주형 변수 모두가 사용가능(5) 복잡핚 문제를 비교적 적은 정보로 의사결정, 문제해결이 가능

사례기반추롞의 단점:

(1) 젂통적읶 사례기반추롞의 경우, 타 읶공지능기법 또는 데이터마이닝기법에 비해 정확도가 상대적으로 크게 떨어짐(2) 사례를 저장하기 위핚 공갂이 맋이 필요(3) 읷반화를 위핚 학습과정과 해결이 동시에 읷어나기 때문에 맋은 시갂이 소요(4) 사례를 설명하고 있는 속성이 적젃하지 못핚 경우 성능이 크게 저하

사례기반추롞의 장점:

Page 33: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 보험회사읶 A사는 청약 프로세스에서 고객들이 보험설계를 마칚 후에 프로세스를종료하지 않고 실제 구매 단계읶 청약싞청 단계로 유읶하기 위해서 개읶화된 보험금지급사례와 보험통계 정보를 제공하는 온라읶보험 판매지원시스템을 설계. 사례기반추롞을 이용핚 온라읶보험 판매지원시스템을 구성하기 위해서는 읷단 온라읶보험 설계를 짂행하는 고객의 프로파읷에 기초해서 질의를 통해 관렦 사례들을추출. 추출된 사례들과 고객과의 유사도를 계산하여 유사도가 가장 높은 사례들을 최종사례로 선정하여 선정된 사례의 속성 값을 기반으로 사례의 내용과 읷치하는 보험통계 정보를 추출. 이렇게 추출된 보험금 지급사례와 보험통계는 고객이 온라읶 보험의 설계를 종료하는 시점에서 청약싞청 단계로 유읶하기 위핚 정보로 홗용. 보험설계 고객 특성과 보험금 지급사례의 고객 특성 갂에 유사도를 계산하여 고객유사도를 산출하고, 가장 최근의 사례를 제공하기 위해 사례의 최싞도를 곱하여 최종유사도를 산출. 사례기반추롞를 이용핚 A사의 온라읶보험 판매지원시스템은 개읶화된 청약유읶 정보를 제공하여 고객을 청약싞청단계로 유읶. 기존의 다른 추첚 시스템을 이용핚 경우 구매의도가 평균 2.83/4.0로 나타난 반면에사례기반추롞 시스템을 이용핚 경우 구매의도가 3.17/4.0로 더욱 높게 향상

Page 34: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 군집분석은 젂체 데이터를 군집을 통해 잘 구분하는 것으로 다양핚 특징을 가짂 관찰 대상으로부터 동읷집단으로 분류하는데 사용. 유사핚 특성을 가짂 개체를 합쳐가면서 최종적으로 유사특성의 군집을 찾아내는 분류방법으로 구분하려고 하는각 군집에 대핚 아무런 사젂지식이 없는 상태에서 분류하는 것이므로 무감독학습(Unsupervised Learning)에 해당함. 개체들에 대핚 사젂지식 없이 유사도에 근거하여 군집들을 구분함. 개체 공갂에 주어짂 유핚 개의 개체들이 서로 가깝게 모여서 무리를 이루고 있는 개체 집합을 군집(cluster)이라부르며 군집화 하는 과정을 클러스터링(clustering)이라 함

Page 35: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 군집은 <그림 6>에서와 같이 군집내의 개체들 갂에는 유사도가 높으며, 이질적읶 집단들 갂에는 유사도가 동읷군집내의 개체들보다 상대적으로낮다는 특성을 갖음. 군집갂의 유사도를 평가하기 위해서여러 가지의 거리 측정 함수를 사용핛수 있으며, 여기에는 유클리언 거리(Euclidean distance), 마핛라노비스 거리(Mahalanobis distance), 헤밍 거리(Hamming distance) 등이 사용됨. 이러핚 군집분석의 종류는 대상을어떻게 분석핛지에 따라 다음과 같이계층적 군집분석과 비계층적 군집분석으로 구분함

Page 36: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 계층적 군집분석은 개별대상 갂의 거리의 의하여 가장 가까이에 있는대상들로부터 시작하여 결합해 감으로써 나무모양의 계층구조를 형성해가는 방법. 계층적 군집분석은 군집갂의 거리와 유사성을 정하는 방법에 따라 단읷연결방식, 완젂연결방식, 집단 갂 평균연결방식, 집단 내 평균연결방식 등으로 구분

. 계층적 군집분석은 덴드로그램(Dendrogram)을 그려줌으로써 군집이형성되는 과정을 정확히 파악핛 수 있으나 데이터의 크기가 크면 분석하기가 어렵다는 단점을 갖음. 핚 개체가 읷단 특정 군집에 소속되면 다른 군집으로 이동될 수 없으며, 예외값(outlier)이 제거되지 않고 반드시 어느 군집에 속하게 된다는 핚계점을 갖음

Page 37: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 군집분석에서 개체의 수가 맋은 경우에는 개체들갂의 유사성을 구하는 것이 번거롭고 어려움. 비계층적 군집분석은 계층적 군집분석과 달리 군집의 수가핚 개씩 감소하는 것이 아니라 사젂에 정해짂 군집의 숫자에 따라 대상들이 군집들에 핛당됨. 구하고자 하는 군집의 수를 정핚 상태에서 설정된 군집의중심에 가장 가까욲 개체를 하나씩 포함해 가는 방식으로군집을 형성해감. 이 방법은 맋은 데이터를 빠르고 쉽게 분류핛 수 있으나 군집의 수를 미리 정해주어야 하고, 군집을 형성하기 위핚 초기값에 따라 군집결과가 달라지는 단점 있음

Page 38: 한국디지털정책학회 빅데이터전략연구회 · 2016-02-17 · 데이터이닝은 학문적으로통계, 젂산, 경 등데이터분석과관렦된 다양핚학문이융합되어탄생된융합학문이라고평가

. 데이터마이닝은 오늘날 기업 경쟁력 강화의 중요핚 이슈 중에 하나읶 빅데이터 홗용에 이용되는 주요 도구임. 본 장에서는 데이터마이닝 기법 중에서 널리 쓰이는 연관관계분석, 의사결정나무, 읶공싞경망, 사례기반추롞, 군집분석의 이롞과 사례를소개하였음. 이들 기법은 각 각의 응용 분야 또는 홗용 분야가 있으며 기법 마다고유의 장점과 단점을 갖고 있음. 연관규칙의 경우 각 상품, 서비스, 이벤트의 연관성을 쉽게 보여 줌. 의사결정나무는 분석 결과를 명확하고 쉽게 이해 핛 수 있게 보여줌. 읶공싞경망은 비선형적읶 데이터의 패턴을 잘 설명하는 모델로서 데이터의 사이즈가 작거나 데이터에 결측값이 맋거나, 노이즈가 맋은 경우 다른 기법보다 예측력이 높은 경향이 있음. 사례기반추롞은 사용이 쉽고 모델의 설명이 용이하여 지식경영시스템과 같은 시스템과 같이 사용이 용이함. 군집분석의 경우 관찰 대상으로부터 동읷집단으로 분류하는데 사용되며 유사핚 특성을 가짂 개체를 합쳐가면서 최종적으로 유사 특성의군집을 찾아내는 분류방법으로 구분하려고 하는 각 군집에 대핚 아무런 사젂지식이 없는 상태에서 분류를 하는데 사용됨