13
머신러닝을 적용한 데이터품질관리와 데이터 전처리 ㈜ 위세아이텍 최용준 2016년 6월 15일

머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

머신러닝을 적용한

데이터품질관리와 데이터 전처리

• ㈜위세아이텍•최용준

2016년 6월 15일

Page 2: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

2

Page 3: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

3

GAGR 25.1%

GAGR 7.8%

Page 4: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

4

측정정의 분석 개선MeasureDefine Analisys Improve

Page 5: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

5

방향

문제해결

접근

지표 및 방법

빅데이터의 범위

정형 데이터

비정형 데이터

다양한 관점의 접근 방법

평가 모델 수립

인적 비용최소화를

위한 자동화

품질 평가라이프사이클전 과정을 대상

다양한 평가기술 개발

Page 6: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

6

RealTime

Batch

전처리 진단 개선

BigData 분석

구문 분석 주제어 분석 중복 분석 유사도 측정

Decision TreeNLP SVM ClusteringK-Means

기준정보 Meta Data 도메인 정보데이터품질패턴 데이터

피드백데이터

지표 관리 진단대상 평가 기준 품질 진단 모델

패턴 분석 이상값 탐지

DNN

평가

Page 7: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

7

ASIS 데이터

실제 분석 결과

Page 8: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

8

Prepared Data

Chosen Model

도메인자동판별 모델신규 데이터

학습데이터

Page 9: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

9

Page 10: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

10

Page 11: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

11

학습데이터

Unsupervised Learning

Supervised Learning

이상값탐지모델신규 데이터

Page 12: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

12

데이터 중복 데이터 병합

Page 13: 머신러닝을적용한 데이터품질관리와데이터전처리6 Real Time Batch 전처리 진단 개선 BigData 분석 구문분석 주제어분석 중복분석 유사도측정

WISE DQ화면