21
데이터 품질 향상 방안 한국어센셜소프트웨어 배상균

데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질

향상 방안

한국어센셜소프트웨어 배상균

Page 2: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터품질의중요성급변하는 비즈니스 환경에 부응하는 시스템의 개발 및 유지보수에 가장 커다란 장애중 하나는 저품질의 데이터임

The TDWI estimates that poor quality customer data costs U. S. The TDWI estimates that poor quality customer data costs U. S. businesses $611 billion a year in postage, printing, and staff businesses $611 billion a year in postage, printing, and staff overhead. The most serious problems of all occur when poor qualoverhead. The most serious problems of all occur when poor quality ity data is used to data is used to report corporate financialsreport corporate financials or to or to make strategic make strategic business planning decisionsbusiness planning decisions..

Source: TDWI Data Quality Survey, December, 2001

Delay in deploying a new system

Extra time to reconcile data

Lost credibility in a system

Lost revenue

Extra costs (e.g. duplicate mailings)

Customer dissatisfaction

Compliance problems

87%

64%

81%

54%

72%

67%

38%

0% 25% 50% 75% 100%

Problems Due to Poor Quality Data

Page 3: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터품질의장애요소소스 데이터의 문제, 현실에 부합하지 못하는 데이터 모델링, 개발/운영의 편의성을위한 설계 변경, 시시각각 변하는 업무 등이 모두 데이터 품질을 저해하는 요소

Invalid Values

DuplicateAttributes Lack of Referential

Integrity

Business RuleViolations Mis-matched Data

Between MultipleSource Systems

Lack of SynchronizationBetween Source

and Target

Missing Data

InvalidComputations

Invalid Ranges

Duplicate Keys

Non-standardFormats

Poor EntityConstruction

Invalid Date Dependencies

UnreasonableRelationships

Page 4: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터품질관리개요Gartner에서는 데이터 품질관리를 위해 계획 수립, 분석, 실행, 조정의 4단계방법론을 제시하였으며, 데이터 품질의 정확한 측정과 평가를 강조함

Identify & Identify & Plan OngoingPlan OngoingEffortsEfforts

DeployDeployProcesses,Processes,

Training,Training,ToolsTools

Set Goals ForSet Goals ForImprovementImprovement

CalculateCalculatePotentialPotentialROIROI

QuantifyQuantifyTheThe

““PainPain””

MeasureMeasureDataDataQualityQuality

AllocateAllocateResourcesResources

MonitorMonitorResultsResults

Ana-lyzeAna-lyze

PlanPlan

EndUsersEnd

UsersDeployDeploy

TuneTune

“Can’t Manage What YouCan’t Measure”

“It’s NOT a one-time effort”

“Technology alonewill fail”

“Make it visible and obvious”

Page 5: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터품질관리를위한어센셜의통합플랫폼어센셜은 전사적 차원의 데이터 통합을 위한 단일 플랫폼 하에서 데이터 품질관리기능을 구현함

병렬처리 엔진

DISCOVERDISCOVER

소스데이터분석을 통한구조 찾기,

데이터 품질의계량화

PREPAREPREPARE

표준화, 매칭, 최적의 데이터

생성

TRANSFORMTRANSFORM

추출, 가공, 데이터 전송

ProfileStage&

AuditStage

ProfileStage&

AuditStageQualityStageQualityStage DataStageDataStage

메타데이터 관리

Ente

rpris

e C

onne

ctiv

ity

실시간 통합 서비스

Ente

rpris

e C

onne

ctiv

ity

• 내장된 데이터 분석기능, 품질 관리 및 가공 기능

• 선형적 확장성을 보장하는병렬처리

• 재 사용 가능한 구성요소들및 비즈니스 룰

• 서비스 지향 아키텍처(Service-Oriented Architecture)에 기반

• IT 표준 지원 – Web Services, XML, J2EE, JMS

• 기업용 어플리케이션과의상호연동 기능

Page 6: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Real Time EnterpriseIT부서 관점에서 RTE를 구현하기 위한 핵심 요소중의 하나는 가장 적절한 시간에시스템간 산재하는 데이터를 통합해서 기업이 필요로 하는 양질의 데이터를 생성할수 있는 방법과 기술

ODS

Product SalesDM

Sales Report

DM

DM

Shipments

TransactionalTransactional OperationalOperational AnalyticalAnalytical

TradingPartners

Electronic Marketplace

ConsumerPortals CRM ERP SCM

EDW

Historical OperationalTrends in

Late Payment

Ascential Enterprise Integration Platform

Ascential 실시간 데이터 통합 인프라

Complex message formatsConditional Routing

Current data

Complex data Transformations

Current and historical data

Message-centricReal-time transactions

In-flight validation

Data-centricRight-time

Large volume of dataAggregations

Page 7: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

어센셜의데이터품질관리로드맵어센셜은 데이터 품질 향상을 위한 장기적인 로드맵에 기반한 체계적이고 실제 구현가능한 방법론과 이를 적용할 수 있는 툴을 제공

Initial Discovery

Data ContentAssessment

iterative

슬ㄹDataReconciliation

SolutionImplementation

iterative

? 데이터 품질관리 Roadmap

Initial discovery

Business Requirements에 근거한 각종 데이터 소스분류로 다음 단계의 작업 대상 설정

Data Content Assessment

데이터 품질 평가를 통한 데이터 변환, 정제, 조절등에 대한 방법, 요구사항 정의

데이터 품질에 대한 계량화

Data Reconciliation

전사적 차원에서 각종 비즈니스 룰과 데이터간의상관관계에 부합되는 데이터 구현 방법에 대한 결정

Solution Implementation

저품질의 데이터로 인한 각종 문제를 근본적으로해결하기 위한 구현 작업

운영시스템에 데이터 표준화, 정제 작업의 적용

ETL, 메타데이터관리시스템, 데이터 품질Audit/Monitoring 시스템 등 데이터 품질 향상을 위한인프라 구축

Page 8: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터에대한이해Data 품질 향상을 위한 첫 번째 단계는 현재 데이터의 내용과 구조에 대한 이해

MetaData

DomainValue

StructuralIntegrity

DataSources

RelationalIntegrity

DuplicateData

ProfileStage

MetaDataAccess

ColumnAnalysis

TableAnalysis

Key Analysis

Cross-tableAnalysis

QualityStagePattern Analysis

QualityStageDuplicate Analysis

AuditStage

Business RuleValidation

OngoingMetrics

AuditStageMetrics &Reporting

소스 DB의 구조파악적합한 타겟 DB 구조

자유형 필드 텍스트 분석데이터 표준화

데이터 품질 계량화품질 모니터링 및 감사

Page 9: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터품질측정및계량화데이터의 품질을 측정, 평가하고 모니터링 하기 위해 체계적 방법론이 필요

품질 측정

데이터의 품질을 측정, 평가하고 모니터링하기 위해“Principals of Total Quality Management” 활용

Level 0에서 Level 4에 이르는 다섯 가지 유형의품질 측정 방법 제시

L0 – Domain Analysis

L1 – Completeness and Validity Assessment

L2 – Structural Integrity Assessment

L3 – Business Rule Compliance

L4 – Transformation Rule

프로세스

현행 데이터 구조 분석

품질 측정 대상 선정

L0, L1, L2, L3, L4 측정 및 각종 리포팅

품질 개선안 제시 및 실행

지속적인 모니터링

Page 10: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터구조에대한이해데이터 구조의 정확한 이해는 전체 프로젝트의 성패를 결정짓는 가장 주요한 요소 중하나

구조 발견

메타데이터를 통한 데이터 구조 이해뿐만 아니라실제 데이터에 대한 자동화된 분석

Step by step을 통한 데이터 구조에 대한 이해

데이터 구조 파악을 위한 6가지 스텝

Column Analysis

Table Analysis

Primary Key Analysis

Cross Table Analysis

Relationship Analysis

Normalization Analysis

현재 데이터에 적합한 정규화된 Target DB 생성

Source to Target 매핑

정규화를 통한 중복 제거

모델링 툴과 연동

Review

Analyze

Accept

Create Data

Model

GenerateETLJob

Normalizeand

GenerateSource/Target

Mappings

소스 데이터의 분석/검토/적용의 반복 작업 후정확한 결과를 데이터 모델에 반영

소스 데이터의 분석/검토/적용의 반복 작업 후정확한 결과를 데이터 모델에 반영

Page 11: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터표준화및단일뷰생성기업 내 단일 표준으로 통합, 표준화된 내용의 검증, 단일한 뷰 생성을 위한 최적데이터 생성을 위한 일관적인 방법론의 제공

데이터 표준화

기업 내 데이터 품질 평가 및 표준화, 정제를 위한“Data Re-Engineering” 제시

Investigation (검사)

Standardization (표준화)

Matching (통합)

Survivorship (우선 적용)

데이터 패턴 분석에 기반한 데이터 품질Assessment 방법 제공

이름, 주소 뿐만 아니라 일반 텍스트에 정보분석 가능

특정한 업무 규칙에 맞는 패턴 매칭

데이터를 업무 또는 산업표준과 통합

Localization 과정을 통해 모든 사이트에 가장필수적인 국내 주소 데이터 정제를 위한 Rule Set을기본 제공

1. Investigation2. Standardization3. Matching4. Survivorship

Materials통합된 뷰가

적용된 타겟DB

Transaction

Customers

Vendor/Supplier

Page 12: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터표준화상세방법론

Data Quality Assessment

Data Re-Engineering (Solution Implementation)

Investigation Standardization Matching Survivorship

자유형 필드 분석

단일 도메인 필드분석

도메인 값의발생건수 생성

자유형 필드 파싱

데이터 표준화

비즈니스 또는 산업표준을 통합

일반 데이터 값에따른 레코드 그룹핑

외부 참조 파일과링크

중복 레코드 식별

데이터의 가장적절한 표현 생성

가장 적절한 값으로데이터 파일에 적용

관련 키의 참조파일개발

음성 값에 키워드적용

매치된 레코드의가능성을 결정하기

위한 점수화예외 리포트 생성

자유형 필드의 패턴발견

Page 13: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Investigation – 자유형 필드 분석을 통한 Domain 값 확인

각종 도메인 값에 대한분석을 통해 데이터 자체를이해함

새로운 Rule Set을정의하거나 기존 Rule Set을수정, 보완하기 위한 검사 작업

데이터에대한정확한이해

데이터의규칙과잠재적인예외사항확인

문서화되지않은업무규칙확인

단어 및 패턴 분석데이터유형및값에대한

분석모두가능

발생건수및분포도확인

유형 횟수 Percentage 예

bbbbbbbbbbbb 5657 56.570%

nnnbnnnbnnnn 3554 35.540% 011 232 2323

nnnbnnnnnnnn 781 7.810% 011 99152365

nnnbnnbnnnnb 2 0.020% 011 88 9941

nnnbnnnnbbbb 2 0.020% 578 9442

패턴 횟수 Percentage 예

C_SG_BK 5151 51.510% 서울 마포구 성산동

C_ST_BK 1663 16.630% 경기 용인시 기흥읍

C_B_BK 1048 10.480% 광주 서구 치평동

C_ST_DG_BK 862 8.620% 경기 성남시 분당구 이매동

C_SG_SK 339 3.390% 전남 보성군 보성읍

유형 횟수 Percentage 예

bbbbbbbbbbbbbbb 9404 94.040%

aaaaaaa.aaabbbbb 184 1.840% hanmail.net

aaaaa.aa.aabbbbbb 80 0.800% lycos.co.kr

aaaaa.aaabbbbbbb 59 0.590% orgio.net

aaaaaa.aaabbbbbb 52 0.520% kornet.net

Page 14: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Standardization – 정의된 룰셋을 통한 데이터 정제 작업

룰셋을 통한 데이터 표준화

자유형 필드에 대한 패턴분석 작업

표준화된 Reference DB 적용

필요한 업무 규칙을 적용

표준화 이전 데이터 예

시도 표현이나 번지 및 통, 반 표현 방법에 일관성 부족

행정동, 법정동이 혼합됨

검증되지 않은 아파트명과건물명

표준화를 적용한 데이터 예

작성된 룰셋과 Reference DB를 적용한 표준화

Page 15: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Matching – 매칭 알고리즘을 통한 동일 또는 유사한 데이터 그룹핑

그룹ID 유형 Score 전화번호 주소 회사

37 MP 41.09 02 76X 700X .. 한강로2 191 삼일회XXX

37 DA 41.09 02 76X 700X .. 한강로2 191 삼일회XXX

37 DA 31.09 02 76X 700X .. 한강로3 191 삼일회XXX

37 DA 11.09 02 76X 700X .. 한강로2 193 삼정회XXX

중복된 각종 데이터를 단일한 뷰로 만들기 위해 동일한 아이덴터티를 가지는 레코드를그룹핑하는 과정

Matching의 3단계

1. Blocking

각 레코드를 가장 정확히 구분할 수 있는 필드를 통해 1차적인 그룹핑

2. Scoring

각 필드별로 가중치 부여해서 레코드별 점수 산정

3. Cutoff

기준점 아래인 레코드를 Matching 대상에서 제외

Blocking 결과(동일한 그룹 ID)

Scoring

Cutoff

(20점)

Blocking 필드

Page 16: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Survivorship – Matching된 레코드들 내에서 최적의 데이터 선택

최적의 데이터 적용

Best-of-breed 방식을적용해서 가장 적합한데이터를 선택

레코드나 필드 단위의 수행

데이터의 통합된 뷰(Consolidated view) 또는마스터 데이터 제공

시스템 최종갱신일 시군구 주소 거주형태 차종 취미

마케팅 1/1/03 도곡동 청솔아파트 자가 승용차 골프인터넷 10/10/02 도곡동 청솔우성아파트 자가 그랜져콜센터 6/3/99 도곡3동 청솔우성아파트 전세 그랜져XG

SOURCE시스템 최종갱신일 시군구 주소 거주형태 차종 취미

인터넷 10/10/02 도곡동 청솔우성아파트 자가 그랜져

RECENCY

시스템 최종갱신일 시군구 주소 거주형태 차종 취미

마케팅 1/1/03 도곡동 청솔아파트 자가 승용차 골프

FREQUENCY

시군구 주소 거주형태 차종 취미

도곡동 청솔우성아파트 자가 그랜져 골프

LENGTH

시군구 주소 거주형태 차종 취미

도곡3동 청솔우성아파트 자가 그랜져XG 골프

Page 17: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Household 처리를 위한 흐름도

INPUT

Format Converter

- Fixed File Format

STAN

Standardization

- 고객 프로파일 표준화

Investigation

- Free form 필드의 패턴 분석

Matching

- 주소, 연락처, 고객번호 등을 기반으로

Household Matching 작업 실시

OUTPUTUNDUP

Survivorship

- Consolidated view

Report

SURV

DataMart/DataMart/

DWDWETL 툴

ETL 툴 TargetTarget

DBDB

통합된 뷰가 적용된타겟 DB

소스 DB

Page 18: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

데이터품질향상을위한어센셜의툴각 Phase별 작업 기법의 체계적 수행, 산출물 작성의 자동화, 품질의 계량화 및 반복작업을 위해 데이터 품질 관리의 각 영역별 작업에 툴을 사용

Data Reconcilation/Alignment Decisions

DataSources

ProfileStage

Full VolumeProfiling

Report Review

subs

et

subsetAuditStage

TargetedColumns,Entities

QualityStage

TargetedColumns,Entities

QualityStage

DataCleansing,

Standardization

DataStageDataETL

AuditStageOngoingMetrics

iterative

iterative

“It’s NOT a one-time effort”

Metadata Rep.

MetaStage

MetadataGathering,

Management

MetaData

MetaData

“Can’t Manage What YouCan’t Measure”

“Make it visible and obvious”

“Technology alonewill fail”

Page 19: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Telstra Address DBOR | Australia’s largest Telco (one of the world’s top 20) creates unique address verification system

Problem Solution Result

단일화된 뷰를 제공하는통합된 고객 정보 제공

Telstra의 가장 성공적인프로젝트로 평가됨

170여 개의 Front-end 시스템에서 고객 주소 관련정보가 입력/변경

100여 개가 넘는 Back-end 시스템에서 고객 정보 활용

부정확한 주소 정보로 인한Billing 및 마케팅 비용 낭비

QualityStageStandardization,

Matching 솔루션으로 활용

1천 2백만 건의 고객주소를 6백 5십만 건으로통합

Telstra Address Database of Record (ADBoR)

Real Time API 적용

실시간 서비스를 통해데이터 생성 시점에 데이터정제

Page 20: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

JP Morgan Chase | A leading global

financial services company

Problem Solution Result

Ascential의 통합 플랫폼DataStage, QualityStage,

AuditStage, MetaStage

Parallel Engine, Real-Time

초기 고객 정보 정제 및 로드

JPMC의 업무 표준에 따른이름, 주소 정보의 표준화

Net Change Process 모델구축

초기 고객 정보 정제 이후고객 정보 관리 절차 체계화

20,000여명의 사용자가JPMC 표준에 부합하는고객 정보 활용

수익을 극대화할 수 있는분석 자료 및 의사결정을위한 정보 제공

4000만의 개인 고객, 170만의투자자 및 다양한 서비스, 시스템

다양한 시스템에 존재하는고객정보의 상이함

각 시스템마다 고객정보의단일한 뷰의 부재

표준화되지 않은 고객 정보

은행, 투자, 신용카드사업부분의 시너지 효과 창출의어려움

Page 21: 데이터 품질 향상 방안 - :: DBguide.net분석가능 ¾특정한업무규칙에맞는패턴매칭 ¾데이터를업무또는산업표준과통합 9Localization 과정을통해모든사이트에가장

데이터 품질 향상 방안

Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved

Profit from Intelligent Information

“ 감사합니다 ”

더욱 자세한 정보를 원하시면http://www.ascential.com/kr 를 방문해 주십시오.