Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
데이터 품질
향상 방안
한국어센셜소프트웨어 배상균
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터품질의중요성급변하는 비즈니스 환경에 부응하는 시스템의 개발 및 유지보수에 가장 커다란 장애중 하나는 저품질의 데이터임
The TDWI estimates that poor quality customer data costs U. S. The TDWI estimates that poor quality customer data costs U. S. businesses $611 billion a year in postage, printing, and staff businesses $611 billion a year in postage, printing, and staff overhead. The most serious problems of all occur when poor qualoverhead. The most serious problems of all occur when poor quality ity data is used to data is used to report corporate financialsreport corporate financials or to or to make strategic make strategic business planning decisionsbusiness planning decisions..
Source: TDWI Data Quality Survey, December, 2001
Delay in deploying a new system
Extra time to reconcile data
Lost credibility in a system
Lost revenue
Extra costs (e.g. duplicate mailings)
Customer dissatisfaction
Compliance problems
87%
64%
81%
54%
72%
67%
38%
0% 25% 50% 75% 100%
Problems Due to Poor Quality Data
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터품질의장애요소소스 데이터의 문제, 현실에 부합하지 못하는 데이터 모델링, 개발/운영의 편의성을위한 설계 변경, 시시각각 변하는 업무 등이 모두 데이터 품질을 저해하는 요소
Invalid Values
DuplicateAttributes Lack of Referential
Integrity
Business RuleViolations Mis-matched Data
Between MultipleSource Systems
Lack of SynchronizationBetween Source
and Target
Missing Data
InvalidComputations
Invalid Ranges
Duplicate Keys
Non-standardFormats
Poor EntityConstruction
Invalid Date Dependencies
UnreasonableRelationships
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터품질관리개요Gartner에서는 데이터 품질관리를 위해 계획 수립, 분석, 실행, 조정의 4단계방법론을 제시하였으며, 데이터 품질의 정확한 측정과 평가를 강조함
Identify & Identify & Plan OngoingPlan OngoingEffortsEfforts
DeployDeployProcesses,Processes,
Training,Training,ToolsTools
Set Goals ForSet Goals ForImprovementImprovement
CalculateCalculatePotentialPotentialROIROI
QuantifyQuantifyTheThe
““PainPain””
MeasureMeasureDataDataQualityQuality
AllocateAllocateResourcesResources
MonitorMonitorResultsResults
Ana-lyzeAna-lyze
PlanPlan
EndUsersEnd
UsersDeployDeploy
TuneTune
“Can’t Manage What YouCan’t Measure”
“It’s NOT a one-time effort”
“Technology alonewill fail”
“Make it visible and obvious”
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터품질관리를위한어센셜의통합플랫폼어센셜은 전사적 차원의 데이터 통합을 위한 단일 플랫폼 하에서 데이터 품질관리기능을 구현함
병렬처리 엔진
DISCOVERDISCOVER
소스데이터분석을 통한구조 찾기,
데이터 품질의계량화
PREPAREPREPARE
표준화, 매칭, 최적의 데이터
생성
TRANSFORMTRANSFORM
추출, 가공, 데이터 전송
ProfileStage&
AuditStage
ProfileStage&
AuditStageQualityStageQualityStage DataStageDataStage
메타데이터 관리
Ente
rpris
e C
onne
ctiv
ity
실시간 통합 서비스
Ente
rpris
e C
onne
ctiv
ity
• 내장된 데이터 분석기능, 품질 관리 및 가공 기능
• 선형적 확장성을 보장하는병렬처리
• 재 사용 가능한 구성요소들및 비즈니스 룰
• 서비스 지향 아키텍처(Service-Oriented Architecture)에 기반
• IT 표준 지원 – Web Services, XML, J2EE, JMS
• 기업용 어플리케이션과의상호연동 기능
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Real Time EnterpriseIT부서 관점에서 RTE를 구현하기 위한 핵심 요소중의 하나는 가장 적절한 시간에시스템간 산재하는 데이터를 통합해서 기업이 필요로 하는 양질의 데이터를 생성할수 있는 방법과 기술
ODS
Product SalesDM
Sales Report
DM
DM
Shipments
TransactionalTransactional OperationalOperational AnalyticalAnalytical
TradingPartners
Electronic Marketplace
ConsumerPortals CRM ERP SCM
EDW
Historical OperationalTrends in
Late Payment
Ascential Enterprise Integration Platform
Ascential 실시간 데이터 통합 인프라
Complex message formatsConditional Routing
Current data
Complex data Transformations
Current and historical data
Message-centricReal-time transactions
In-flight validation
Data-centricRight-time
Large volume of dataAggregations
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
어센셜의데이터품질관리로드맵어센셜은 데이터 품질 향상을 위한 장기적인 로드맵에 기반한 체계적이고 실제 구현가능한 방법론과 이를 적용할 수 있는 툴을 제공
Initial Discovery
Data ContentAssessment
iterative
슬ㄹDataReconciliation
SolutionImplementation
iterative
? 데이터 품질관리 Roadmap
Initial discovery
Business Requirements에 근거한 각종 데이터 소스분류로 다음 단계의 작업 대상 설정
Data Content Assessment
데이터 품질 평가를 통한 데이터 변환, 정제, 조절등에 대한 방법, 요구사항 정의
데이터 품질에 대한 계량화
Data Reconciliation
전사적 차원에서 각종 비즈니스 룰과 데이터간의상관관계에 부합되는 데이터 구현 방법에 대한 결정
Solution Implementation
저품질의 데이터로 인한 각종 문제를 근본적으로해결하기 위한 구현 작업
운영시스템에 데이터 표준화, 정제 작업의 적용
ETL, 메타데이터관리시스템, 데이터 품질Audit/Monitoring 시스템 등 데이터 품질 향상을 위한인프라 구축
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터에대한이해Data 품질 향상을 위한 첫 번째 단계는 현재 데이터의 내용과 구조에 대한 이해
MetaData
DomainValue
StructuralIntegrity
DataSources
RelationalIntegrity
DuplicateData
ProfileStage
MetaDataAccess
ColumnAnalysis
TableAnalysis
Key Analysis
Cross-tableAnalysis
QualityStagePattern Analysis
QualityStageDuplicate Analysis
AuditStage
Business RuleValidation
OngoingMetrics
AuditStageMetrics &Reporting
소스 DB의 구조파악적합한 타겟 DB 구조
자유형 필드 텍스트 분석데이터 표준화
데이터 품질 계량화품질 모니터링 및 감사
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터품질측정및계량화데이터의 품질을 측정, 평가하고 모니터링 하기 위해 체계적 방법론이 필요
품질 측정
데이터의 품질을 측정, 평가하고 모니터링하기 위해“Principals of Total Quality Management” 활용
Level 0에서 Level 4에 이르는 다섯 가지 유형의품질 측정 방법 제시
L0 – Domain Analysis
L1 – Completeness and Validity Assessment
L2 – Structural Integrity Assessment
L3 – Business Rule Compliance
L4 – Transformation Rule
프로세스
현행 데이터 구조 분석
품질 측정 대상 선정
L0, L1, L2, L3, L4 측정 및 각종 리포팅
품질 개선안 제시 및 실행
지속적인 모니터링
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터구조에대한이해데이터 구조의 정확한 이해는 전체 프로젝트의 성패를 결정짓는 가장 주요한 요소 중하나
구조 발견
메타데이터를 통한 데이터 구조 이해뿐만 아니라실제 데이터에 대한 자동화된 분석
Step by step을 통한 데이터 구조에 대한 이해
데이터 구조 파악을 위한 6가지 스텝
Column Analysis
Table Analysis
Primary Key Analysis
Cross Table Analysis
Relationship Analysis
Normalization Analysis
현재 데이터에 적합한 정규화된 Target DB 생성
Source to Target 매핑
정규화를 통한 중복 제거
모델링 툴과 연동
Review
Analyze
Accept
Create Data
Model
GenerateETLJob
Normalizeand
GenerateSource/Target
Mappings
소스 데이터의 분석/검토/적용의 반복 작업 후정확한 결과를 데이터 모델에 반영
소스 데이터의 분석/검토/적용의 반복 작업 후정확한 결과를 데이터 모델에 반영
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터표준화및단일뷰생성기업 내 단일 표준으로 통합, 표준화된 내용의 검증, 단일한 뷰 생성을 위한 최적데이터 생성을 위한 일관적인 방법론의 제공
데이터 표준화
기업 내 데이터 품질 평가 및 표준화, 정제를 위한“Data Re-Engineering” 제시
Investigation (검사)
Standardization (표준화)
Matching (통합)
Survivorship (우선 적용)
데이터 패턴 분석에 기반한 데이터 품질Assessment 방법 제공
이름, 주소 뿐만 아니라 일반 텍스트에 정보분석 가능
특정한 업무 규칙에 맞는 패턴 매칭
데이터를 업무 또는 산업표준과 통합
Localization 과정을 통해 모든 사이트에 가장필수적인 국내 주소 데이터 정제를 위한 Rule Set을기본 제공
1. Investigation2. Standardization3. Matching4. Survivorship
Materials통합된 뷰가
적용된 타겟DB
Transaction
Customers
Vendor/Supplier
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터표준화상세방법론
Data Quality Assessment
Data Re-Engineering (Solution Implementation)
Investigation Standardization Matching Survivorship
자유형 필드 분석
단일 도메인 필드분석
도메인 값의발생건수 생성
자유형 필드 파싱
데이터 표준화
비즈니스 또는 산업표준을 통합
일반 데이터 값에따른 레코드 그룹핑
외부 참조 파일과링크
중복 레코드 식별
데이터의 가장적절한 표현 생성
가장 적절한 값으로데이터 파일에 적용
관련 키의 참조파일개발
음성 값에 키워드적용
매치된 레코드의가능성을 결정하기
위한 점수화예외 리포트 생성
자유형 필드의 패턴발견
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Investigation – 자유형 필드 분석을 통한 Domain 값 확인
각종 도메인 값에 대한분석을 통해 데이터 자체를이해함
새로운 Rule Set을정의하거나 기존 Rule Set을수정, 보완하기 위한 검사 작업
데이터에대한정확한이해
데이터의규칙과잠재적인예외사항확인
문서화되지않은업무규칙확인
단어 및 패턴 분석데이터유형및값에대한
분석모두가능
발생건수및분포도확인
유형 횟수 Percentage 예
bbbbbbbbbbbb 5657 56.570%
nnnbnnnbnnnn 3554 35.540% 011 232 2323
nnnbnnnnnnnn 781 7.810% 011 99152365
nnnbnnbnnnnb 2 0.020% 011 88 9941
nnnbnnnnbbbb 2 0.020% 578 9442
패턴 횟수 Percentage 예
C_SG_BK 5151 51.510% 서울 마포구 성산동
C_ST_BK 1663 16.630% 경기 용인시 기흥읍
C_B_BK 1048 10.480% 광주 서구 치평동
C_ST_DG_BK 862 8.620% 경기 성남시 분당구 이매동
C_SG_SK 339 3.390% 전남 보성군 보성읍
유형 횟수 Percentage 예
bbbbbbbbbbbbbbb 9404 94.040%
aaaaaaa.aaabbbbb 184 1.840% hanmail.net
aaaaa.aa.aabbbbbb 80 0.800% lycos.co.kr
aaaaa.aaabbbbbbb 59 0.590% orgio.net
aaaaaa.aaabbbbbb 52 0.520% kornet.net
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Standardization – 정의된 룰셋을 통한 데이터 정제 작업
룰셋을 통한 데이터 표준화
자유형 필드에 대한 패턴분석 작업
표준화된 Reference DB 적용
필요한 업무 규칙을 적용
표준화 이전 데이터 예
시도 표현이나 번지 및 통, 반 표현 방법에 일관성 부족
행정동, 법정동이 혼합됨
검증되지 않은 아파트명과건물명
표준화를 적용한 데이터 예
작성된 룰셋과 Reference DB를 적용한 표준화
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Matching – 매칭 알고리즘을 통한 동일 또는 유사한 데이터 그룹핑
그룹ID 유형 Score 전화번호 주소 회사
37 MP 41.09 02 76X 700X .. 한강로2 191 삼일회XXX
37 DA 41.09 02 76X 700X .. 한강로2 191 삼일회XXX
37 DA 31.09 02 76X 700X .. 한강로3 191 삼일회XXX
37 DA 11.09 02 76X 700X .. 한강로2 193 삼정회XXX
중복된 각종 데이터를 단일한 뷰로 만들기 위해 동일한 아이덴터티를 가지는 레코드를그룹핑하는 과정
Matching의 3단계
1. Blocking
각 레코드를 가장 정확히 구분할 수 있는 필드를 통해 1차적인 그룹핑
2. Scoring
각 필드별로 가중치 부여해서 레코드별 점수 산정
3. Cutoff
기준점 아래인 레코드를 Matching 대상에서 제외
Blocking 결과(동일한 그룹 ID)
Scoring
Cutoff
(20점)
Blocking 필드
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Survivorship – Matching된 레코드들 내에서 최적의 데이터 선택
최적의 데이터 적용
Best-of-breed 방식을적용해서 가장 적합한데이터를 선택
레코드나 필드 단위의 수행
데이터의 통합된 뷰(Consolidated view) 또는마스터 데이터 제공
시스템 최종갱신일 시군구 주소 거주형태 차종 취미
마케팅 1/1/03 도곡동 청솔아파트 자가 승용차 골프인터넷 10/10/02 도곡동 청솔우성아파트 자가 그랜져콜센터 6/3/99 도곡3동 청솔우성아파트 전세 그랜져XG
SOURCE시스템 최종갱신일 시군구 주소 거주형태 차종 취미
인터넷 10/10/02 도곡동 청솔우성아파트 자가 그랜져
RECENCY
시스템 최종갱신일 시군구 주소 거주형태 차종 취미
마케팅 1/1/03 도곡동 청솔아파트 자가 승용차 골프
FREQUENCY
시군구 주소 거주형태 차종 취미
도곡동 청솔우성아파트 자가 그랜져 골프
LENGTH
시군구 주소 거주형태 차종 취미
도곡3동 청솔우성아파트 자가 그랜져XG 골프
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Household 처리를 위한 흐름도
INPUT
Format Converter
- Fixed File Format
STAN
Standardization
- 고객 프로파일 표준화
Investigation
- Free form 필드의 패턴 분석
Matching
- 주소, 연락처, 고객번호 등을 기반으로
Household Matching 작업 실시
OUTPUTUNDUP
Survivorship
- Consolidated view
Report
SURV
DataMart/DataMart/
DWDWETL 툴
ETL 툴 TargetTarget
DBDB
통합된 뷰가 적용된타겟 DB
소스 DB
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
데이터품질향상을위한어센셜의툴각 Phase별 작업 기법의 체계적 수행, 산출물 작성의 자동화, 품질의 계량화 및 반복작업을 위해 데이터 품질 관리의 각 영역별 작업에 툴을 사용
Data Reconcilation/Alignment Decisions
DataSources
ProfileStage
Full VolumeProfiling
Report Review
subs
et
subsetAuditStage
TargetedColumns,Entities
QualityStage
TargetedColumns,Entities
QualityStage
DataCleansing,
Standardization
DataStageDataETL
AuditStageOngoingMetrics
iterative
iterative
“It’s NOT a one-time effort”
Metadata Rep.
MetaStage
MetadataGathering,
Management
MetaData
MetaData
“Can’t Manage What YouCan’t Measure”
“Make it visible and obvious”
“Technology alonewill fail”
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Telstra Address DBOR | Australia’s largest Telco (one of the world’s top 20) creates unique address verification system
Problem Solution Result
단일화된 뷰를 제공하는통합된 고객 정보 제공
Telstra의 가장 성공적인프로젝트로 평가됨
170여 개의 Front-end 시스템에서 고객 주소 관련정보가 입력/변경
100여 개가 넘는 Back-end 시스템에서 고객 정보 활용
부정확한 주소 정보로 인한Billing 및 마케팅 비용 낭비
QualityStageStandardization,
Matching 솔루션으로 활용
1천 2백만 건의 고객주소를 6백 5십만 건으로통합
Telstra Address Database of Record (ADBoR)
Real Time API 적용
실시간 서비스를 통해데이터 생성 시점에 데이터정제
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
JP Morgan Chase | A leading global
financial services company
Problem Solution Result
Ascential의 통합 플랫폼DataStage, QualityStage,
AuditStage, MetaStage
Parallel Engine, Real-Time
초기 고객 정보 정제 및 로드
JPMC의 업무 표준에 따른이름, 주소 정보의 표준화
Net Change Process 모델구축
초기 고객 정보 정제 이후고객 정보 관리 절차 체계화
20,000여명의 사용자가JPMC 표준에 부합하는고객 정보 활용
수익을 극대화할 수 있는분석 자료 및 의사결정을위한 정보 제공
4000만의 개인 고객, 170만의투자자 및 다양한 서비스, 시스템
다양한 시스템에 존재하는고객정보의 상이함
각 시스템마다 고객정보의단일한 뷰의 부재
표준화되지 않은 고객 정보
은행, 투자, 신용카드사업부분의 시너지 효과 창출의어려움
데이터 품질 향상 방안
Copyrightⓒ2003SAMSUNG SDS Co.,LTD.All right reserved
Profit from Intelligent Information
“ 감사합니다 ”
더욱 자세한 정보를 원하시면http://www.ascential.com/kr 를 방문해 주십시오.