37
빅데이터 시대의 새로운 데이터 통합 방안 임정혜 | 부장 한국인포매티카

빅데이터시대의 새로운데이터통합방안 · VSAM Other Extensive ... PowerExchange Data Virtualization ... 솔루션으 Informatica PowerCenter BigData Edtion을적용하여기존의문제를해결하였습니다

Embed Size (px)

Citation preview

빅데이터 시대의새로운 데이터 통합 방안

임정혜 | 부장

한국인포매티카

“현재 기업은 빅 데이터와 관련된과제를 해결하고, 기업과 고객 모두에게빅 데이터가 가져다주는 혜택을 누릴

준비가 되어 있습니까?”

Market TrendsCustomer Needs

빅데이터는 ‘극심’한 데이터 관리의 시작에 불과

“빅 데이터는 전통적인 데이터 관리 기술의 능력을초과하는 대량의 크기를 가지고 있으며, 이에대한

데이터의 볼륨을 관리 할 수있는 새로운 기술의 사용을필요로 합니다.”

IT 환경의 변화

IT세계는 세가지 형태의 기술 트랜드로 급속히 변화되고있습니다. 클라우드 컴퓨팅, 그리고 소셜 컴퓨팅과 모바일컴퓨팅은 동시다발적으로 컴퓨터 산업 전반에서 시,공간의

경계를 허물고 있습니다.

클라우드 소셜미디어 모바일

WHERE

PAST

FUTURE

WHAT HOW

IT 기술 변화의 메가트랜드IT환경의 변화

CLOUD

ON-PREMISE TRANSACTIONS DESKTOP

MOBILEINTERACTIONS

데이터 통합데이터의 변화

CLOUD

ON-PREMISE

INTERACTIONS

TRANSACTIONS

MOBILE

DESKTOP

WHERE

PAST

FUTURE

WHAT HOW

“현재 대부분의 IT 조직은 예상치 못한빅 데이터의 변화와 관리 비용에대하여 준비되어 있지 않습니다.”

빅 데이터빅 트랜잭션, 빅 인터랙션, 빅 데이터 처리의 결합

Big Transaction Data Big Interaction Data

Online TransactionProcessing (OLTP)

OracleDB2Britton-LeeIngresInformixSysbaseSQL Server…

Cloud

Salesforce.comConcurGoogle App EngineAmazon…

Other Interaction Data

Clickstreamimage/TextScientificGenomoic/pharmaMedical

Medical/DeviceSensors/metersRFID tagsCDR/mobile…

Social Media Data

Facebook

Twitter

Linkedin

Youtube…

Big Data Processing

Online Analytical Processing (OLAP) &DW Appliances

TeradataRedbrickEssBaseSybase IQNetezza

GreenplumDataAllegroAsterdataVerticaParacell…

어떻게 준비해야 합니까?

“IT리더들은 빅데이터의규모의 경제를 활용하기위해 빅데이터가 의미하는

모든 차원에 대해생각해야합니다.”

Informatica 9.5

Informatica 9.5는 빅데이터의수익을 극대화하는 명시적 목적으로 개발되었습니다.

데이터의 비즈니스 가치 증대데이터 비용의 최소화빅데이터 처리의 구현 가능

What Is Informatica 9.5 and What Value Does It Deliver?

Maximizing the Return on Big Data

Informatica Big Data 관련 5가지 적용 방안

Big Transaction Data Big Interaction Data

Online TransactionProcessing (OLTP)

OracleDB2Britton-LeeIngresInformixSysbaseSQL Server…

Cloud

Salesforce.comConcurGoogle App EngineAmazon…

Other Interaction Data

Clickstreamimage/TextScientificGenomoic/pharmaMedical

Medical/DeviceSensors/metersRFID tagsCDR/mobile…

Social Media Data

Facebook

Twitter

Linkedin

Youtube…

Big Data Processing

5.하둡기반 빅데이터 분석

3. 개인정보 데이터 보호

Online Analytical Processing (OLAP) &DW Appliances

TeradataRedbrickEssBaseSybase IQNetezza

GreenplumDataAllegroAsterdataVerticaParacell…

1. 민첩한 BI 정보제공

2. 어플리케이션 성능향상4. 사전 고객 참여 강화

신속한 지능 정보 제공민첩한 BI (Business Intelligence) 정보제공

1.

빅데이터 수익 극대화 Informatica 9.5 활용

• 새로운 데이터 소스의 신속한 접근 : 가상데이터의 가속 및 소스 데이터의 신속한 접근을통한 개발 시간을 최소화함

• 신뢰할 수 있는 데이터 활용 : 데이터의 구조확인 및 주요 데이터의 식별과 품질 확인에대한 처리를 신속하게 처리

• 데이터 처리의 간소화 : Xmap기능을 통한계층 데이터처리를 수행하는데 드는 시간과비용을 최소화함

• 운영시스템의 보호 : 데이터 복제를 통해운영시스템의 분석 및 영향을 최소화.

민첩한 BI정보 제공. 주/월 단위에서 일단위의 업무처리가 가능하도록, 신속한 비즈니스 정보 제공

월간 주간단위에서 일단위 비즈니스정보를 제공

BI 지원/레포팅 개발 비용최소화

가치

비용

데이터디스커버리

데이터 가상화데이터규칙

논리적데이터오브젝트

논리적데이터 오브젝트

데이터규칙

데이터 복제

X MAP

신속한 지능 정보 제공민첩한 BI (Business Intelligence) 정보제공

1.

운영DB

신속한 지능 정보 제공HealthNow社의 데이터 가상화를 통한 비즈니스 가치 활용

1.

솔루션 적용 수행 결과

당면과제. 비즈니스 사용자들은 그들의 경영보고서를 작성하는데 평균 1,700시간 소요. 이러한 문제를해결하고자 30,000여개의 자체 데이터 마트를 생성하여 스토리지 비용이 상승함

DW

가상 뷰(Virtual View)

요청사항전송

운영환경적용

비즈니스 IT

처리 속도 5배 향상기존대비 1/3 비용절감

신속한 프로토타입

상시 프로파일 처리 및 분석

실시간 데이터 클린징 & 변환

BI 프로비져닝

신뢰할 수 있는 SLA 제공어플리케이션 성능 향상

2.

데이터 수익 극대화 Informatica 9.5 활용

• 데이터 디스커버리. 휴면 또는 가용성 높은데이터를 식별

• 스마트 파티션. 복잡한 어플리케이션 및데이터 웨어하우스의 스토리지 가용성을 높임.

• 통합 워크벤치 기능. 단일 인터페이스를 통한파티션 및 아카이브 전략 관리.

어플리케이션 성능. 소프트웨어 응용 프로그램의 성능 및 가용성을 모니터링 및 관리에 초점을 맞춘 IT 관리 원칙. 이 원칙은 빅데이터의 증가로 인해 비즈니스 사용자의 예상을 초과하여 시스템 이상 감지및 어플리케이션 성능 문제를 신속하게 해결하지 못하는 상황이 발생하게 됨

비즈니스 SLA를 충족하는어플리케이션 성능 향상

스토리지, 인프라스트럭쳐, IT 관리비용의 감소

가치

비용

파티셔닝 아카이브 아카이브

운영시스템 운영시스템

DB 아카이브 파일 아카이브

스마트파티셔닝

데이터아카이빙

조회 빈도수 多 조회 빈도수 小 데이터 아카이브 컴플라이언스

중앙집중식 ILM 규칙 적용& 관리 기능 제공

신뢰할 수 있는 SLA 제공어플리케이션 성능 향상

2.

솔루션 적용 수행 결과

당면과제. JP Morgan Chase & Co社는 매주 1TB 이상 운영 데이터웨어하우스 데이터가 증가하여스토리지 비용 증가 및 어플리케이션 성능 저하에 직면하게 됨

신뢰할 수 있는 SLA 제공JPMorgan Chase & Co 社의 스토리지 비용 절감

2.

운영데이터웨어하우스증가율 감소(0%)

어플리케이션성능향상

스토리지 비용30% 감소

일별데이터 로드

Production

Data Warehouse

150 TB

일별

주별

월별

온라인DB아카이브

운영 데이터웨어하우스

운영데이터웨어하우스 내

파티셔닝 적용

파티션적용

데이터아카이브

운영데이터웨어하우스

150 TB

컴플라이언스를 위한 데이터 보호데이터 개인정보 보호 / 데이터 마스킹

3.

데이터 수익극대화 Informatica 9.5 활용

• 데이터 발견 및 보호. 운영 및 비운영환경에서민감한 개인정보 데이터의 보호.

• 개인정보 데이터의 보호 및 확산 . 비즈니스정책 기반의 일관적이고 규칙적인 데이터마스킹 기법 구현

데이터 마스킹. 개발환경의 민감한 데이터 보호를 위한 정책기반의 마스킹, 테스트 및 운영 테스트 및운영 환경 전반의 데이터 개인 정보 보호를 지원, 데이터베이스 또는 어플리케이션의 소스 코드를변경하지 않고도 일반적인 데이터 보안 및 개인 정보 보호 문제의 다양한 해결

개인 정보 보호 정책 및컴플라이언스를 보장. 데이터 침해의위험을 감소.

데이터 개인 정보 보호를구현하고 관리 비용을 절감

가치

비용

정책기반의중앙집중 관리 및

모니터링

Informatica DynamicData Masking

Informatica PersistentData Masking

ERP 시스템

빌링 시스템

커스텀 시스템

CRM 시스템

DATAWAREHOUSE

운영시스템환경

개발

테트스

교육

컴플라이언스를 위한 데이터 보호데이터 개인정보 보호 / 데이터 마스킹

3.

컴플라이언스를 위한 데이터 보호데이터 개인정보 보호 / 데이터 마스킹

3.

당면과제. CVS社는 잠재적인 고객정보의 노출, 주소, 신용 카드 및 웹사이트인 CVS.com에 대한 추가개인 정보보호 조치가 필요하였으며, 또한 컴플라이언스를 준수 및 웹사이트의 보안을 향상시키기위해 그에 따른 데이터 보호 필요

솔루션 적용 수행 결과

150개이상의어플리케이션

US

해외

360개 이상의어플리케이션 인스턴스

80억개 이상의고객정보를 보유한데이터베이스

180개 이상의어플리케이션의 개인정보 데이터 마스킹적용

국제 기준인

PHI, PII, PCI 기반의다양한 컴플라이언스기준에 입각한 CVS내다양한 개발, 테스트환경 내 개인정보데이터 보호

Oracle IMS DB2 Teradata

VSAM Other

Extensive Connectivity

매출 수익 및 고객 충성도 증대사전 고객 참여 강화

4.

데이터 수익 극대화 Informatica 9.5 활용

• 새로운 이해. 고객의 행동, 정서, 관계 및영향의 이해를 향상시키기 위하여 고객데이터의 새로운 소스의 활용.

• 새로운 채널. 시장 채널로서의 소셜미디어활용.

• 고객 참여 강화. 사전 고객 서비스 및 실시간활동을 바탕으로 고객에게 혜택을 제공.

사전 고객참여 강화. 고객의 이해 및 충성도를 향상시키기 위해 소셜 데이터를 통합하고 고객 맞춤형서비스와 혜택을 제공하기 위해 실시간 이벤트 정보를 활용함

매출 증대 및 고객 충성도 증대

고객 마찰 감소 및 잠재 고객이탈 및 손실 방지

VALUE

COST

변환 표준화 강화

실시간 이벤트 &트랜잭션 흐름

CEP(Complex Event Processing)

매출 수익 및 고객 충성도 증대사전 고객 참여 강화

4.

매출 수익 및 고객 충성도 증대Nordstrom社의 소셜MDM을 통한 적시 적소의 마케팅 활용 방안

4.

당면과제. Nordstrom 백화점은 소셜 미디어를 통해 주요 고객의 영향도를 파악하고, 시장에 새로운채널로서의 소셜 미디어를 활용하는 방법을 모색하기를 원함

수행 결과

Informatica MDM

새로운 채널로서의 소셜미디어 활용을 통해 고객충성도 및 매출 증대 기여

솔루션 적용

수행 결과

당면과제. 다채널의 고객 참여를 통해 상위 5% 고객의 매출 증대를 원함

매출 수익 및 고객 충성도 증대Cannery 카지노 호텔의 매출 증대

4.

CEP

플로어매니져

모바일정보 제공

실시간 이벤트 & 트랜잭션 흐름

변환 표준화 강화

솔루션 적용

카지노에서는 고객의맞춤형 정보를실시간으로 모바일로전송

플로어 매니저는 해당고객을 위한 특별제안에 대한 실시간정보를 수신

비용 효율적, 확장성 높은 빅데이터 분석 기법하둡을 활용한 빅데이터 분석기법

5.

데이터 수익 극대화 Informatica 9.5 활용

엔터프라이즈 기반의 하둡 활용

• 기존 환경과 하둡 환경간의 상호 운용성을 강화

• 하둡 환경내에서 비즈니스에 사용 가능한복잡한 데이터를 활용하기 위해 데이터 파싱작업 수행

• 하둡 환경의 관리를 통해 기업의 요구사항을적절히 수용.

• 인포매티카 9.5를 활용하여 고객의 기존 스킬세트 및 IT자산을 재활용하여 하둡 생산성을극대화

빅데이터 분석. 막대한 양의 정형 및 비정형 데이터의 처리는 기존의 전통적인 기술로는 불가능함.따라서 새로운 분석 제공 및 효과적인 비용 절감을 위해 하둡 기술을 활용

고객 행동 및 선호도를 이해하기 위해클릭 스트림, 소셜 미디어 및 기타고객 데이터를 분석.

비즈니스 운영을 향상시키기 위해장치, 센서, 기계, 태그와 미터데이터를 분석

하둡 기반의 데이터 분석 처리를통해 비용 효율화 및 확장성을 높임

가치

비용

Data Replication

PowerExchange

Data Virtualization

어플리케이션및 데이터

Hadoop Technology Stack

PIG HIVE

Map/Reduce

HDFS

IdentifyTransformParse Cleanse

Visual Development Environment

Discover

File

Archive

비용 효율적, 확장성 높은 빅데이터 분석하둡 상호 운용성, 관리 및 생산성 향상 방안

5.

Data Archive

당면과제. 보다 효율적으로 마케팅, 제품 개발 및 회원 운영을 분석하고 전반적인 사업의 성공을향상시키기 위한 데이터 처리 시간의 감소 방안을 모색함

솔루션 적용 수행 결과

비용 효율적, 확장성 높은 빅데이터 분석하둡을 활용한 빅데이터 분석

5.

HParser PowerCenter

MicroStrategy

Netezza

기존 대비 4배이상의 처리시간감소로 3주 주기의처리 시간 감소를통해 비즈니스에보다 새로운정보를 빠른속도로 게재

32

온라인 지불 서비스를 제공하는 PayPal은 더 빠른 의사 결정을 지원하기 위해 인포매티카의 실시간 데이터인터페이스 기술과 급증하는 데이터 볼륨을 처리하기 위한 하둡 기반의 데이터 통합을 채택하였습니다.

인포매티카 제공 솔루션 개선 사항

• 비용대비 효과적인성능 개선 효과

• 하드웨어 투자비용절감

• 데이터 통합 플랫폼을 표준화하여정확성 및 생산성증대

빅 데이터 프로젝트의 비용 절감

Web Logs

Traditional Grid

Near Real-TimeRDBMS

RDBMS

RDBMS

Datamarts

Data marts

DataWarehouse

Phase 2

33

기하급수적으로 증가하는 트랜잭션 데이터 및 200TB가 넘는 분석 데이터로 인하여 시스템의 성능 저하 및업무 보고서의 조회 속도 저하 문제를 해결하기 위하여 IT 환경을 하둡 환경으로 전환하였으며, 데이터 통합솔루션으로 Informatica PowerCenter BigData Edtion을 적용하여 기존의 문제를 해결하였습니다 .

인포매티카 제공 솔루션 개선 사항

• 아카이빙으로 운영계EDW에 100TB이상의 데이터공간을 확보

• Re-architecture project 기간이6개월에서 2주일로단축

• 25% 이상의 성능향상

ERP

CRM

Custom

Business Reports

EDW

Archived DataSNS Data

빅 데이터 프로젝트의 비용 절감아카이빙과 최적화를 통한 비용 절감

Large Global Financial Institution

34

• 다양한 이기종 데이터소스로 부터 10조건이상의 데이터 통합 및적재에 대한 관리가가능해짐

• 이기종 데이터 관리환경에서 변화되는비즈니스 요구에 대한유연한 데이터 통합아키텍쳐를지원함

EDW

DW

DWMainframe

Data

Vir

tualiza

tion

RDBMS

Unstructured Data

Business Reports

Traditional Grid

Phase 2

Phase 2

Large Government Agency

대형 정부 기관의 경우 기존 운영계시스템 및 비정형 데이터의 시스템 소스로 유입되는 대량의 데이터에대한 분석 요건과 지속적인 데이터 증가가 예상되어 새로운 데이터 처리 방법으로 하둡 환경 및 데이터통합 솔루션인 Informatica Big Data Edition을 적용하였습니다.

인포매티카 제공 솔루션 개선 사항

효율적인 대국민 서비스 제공비즈니스 변화에 유연한 아키텍쳐 활용

Informatica 9.5빅 데이터의 가치를 극대화

데이터의 가치 증대

연관성어플리케이션내 관련 데이터여부의 파악

활용성위험과 오류를최소화한 실행데이터 제공

적시성실시간

빅데이터 처리

전체성최소 5배이상의 빠른속도 통합 기업데이터 전송

가치성일관성 있는정확한데이터를 제공

접근성비즈니스 관련모든 데이터유형의 동일한사용

신뢰성신뢰할 수 있는고객관점에서의데이터 처리

보안어느 위치에상관없이민감한 데이터보호

Data Streaming

Proactive Monitoring

HParser Embeddable Cloud Service

Data Virtualization

Pervasive Data Privacy

Holistic Data Stewardship

Data Timeline for Social MDM

비즈니스 비용잘못된 데이터를통한 잘못된의사결정 방지

인력 비용비즈니스엔터티의자동화로 생산성향상

소프트웨어 비용클라우드 기반의데이터 관리 정책적용

하드웨어 비용저비용/고효율구현을 위한하드웨어 플랫폼채택

스토리지 비용하둡어플라이언스 및관련 데이터활용을 통한 비용절감

Data Validation

Data Discovery Hybrid IT Platform

HadoopMapreduceProcessing

Smart Partitions

데이터의 비용 감소

빅데이터 통합을 위한 인포매티카의 전략

빅 데이터 통합(검증된, 확장가능, 비용 효율적)

협업 기반의 데이터 거버넌스(비즈니스 기반의 신뢰할 수 있는 데이터 이행)

포괄적인 데이터 마스킹(빅 데이터에 대한 데이터 보안 적용)

확장 가능한 빅데이터 아카이빙(빅데이터 저장 스토리지비용 절감)

Why Informatica 9.5

“인포매티카 9.5솔루션은 고객의 기업 데이터의 가치를높이고, 데이터 처리 비용을 감소시켜 고객의 데이터 가치를

극대화하는 것을 목적으로 함”