Upload
amazon-web-services-korea
View
237
Download
7
Embed Size (px)
Citation preview
Amazon Redshift 기반 DW 와비지니스 인텔리전스 구현 방법
우리 Big data 분석 잘하고 있나? DW는?
• DW는 견적이 작지 않습니다.
• 데이터가 금방 차서 빨리 확장해야합니다.
• 아침에 보고서 내야하는데, DW접속이 안됩니다.
• DW백업을 해야할까요?
• 데이터가 커져서 로딩이 한 세월입니다.
• 다른 분석 서비스와 연동이 어렵습니다.
• 민감한 데이터인데 전송이나 저장 시 암호화는?
• 운영이나 S/W 패치는 누가 계속 봐줘야 할텐데…
AWS Big Data 관련 포트폴리오Collect Store Analyze
Amazon Kinesis Firehose
AWS Direct Connect
Amazon Snowball
Amazon Kinesis Analytics
Amazon KinesisStreams
Amazon S3 Amazon Glacier
Amazon CloudSearch
Amazon RDS, Amazon Aurora
Amazon Dynamo DB
Amazon Elasticsearch Service
Amazon EMR Amazon EC2
Amazon
Redshift
Amazon Machine
Learning
Amazon
QuickSight
AWS Data PipelineAWS Database Migration Service
Amazon Redshift
shift$1,000/TB/1년으로시작할수있는빠르고간단한 Patebyte 확장이
가능한데이터웨어하우징서비스입니다.
다양한 Amazon Redshift 사용 고객
왜 사용할까요? Business 관점
6
전형적인 데이터 웨어하우징
비지니스 보고 복잡한 분석 쿼리 및 파이프라인
보안 및 규정
손쉬운마이그레이션 –간단한 UI를지원한는 AWS Database Migration Service 지원
보안및규정 –종단간암호화, SOC 1/2/3, PCI-DSS, HIPAA, FedRAMP 준수
다양한파트너솔루션 –풍부한 BI 및 ETL 솔루션지원
Petabyte 규모의 다중Redshift 클러스터 사용.
보안 요건 만족
SQL Server에서 Redshift 전환. 비용 절감, 성능 향상
보안 규약 만족 및 57% 비용절약
대용량 데이터 입력및 갱신
로그 분석 시스템/서비스
IoT를 포함한 다양한 로그 데이터
분석
클릭 스트림이벤트 분석
시간 구간/변화에 따른 데이터
분석
낮은비용 –매우낮은비용으로대량의데이터분석가능
높은성능 – Massively Parallel Processing (MPP), 컬럼기반, 병렬데이터로딩, 쿼리최적화지원의아키텍쳐
준실시간데이터처리 –준실시간처리를위해 Amazon Kinesis Firehose를통해데이터로딩과마이크로배치업무지원
상호 데이터 분석 및 추천엔진. 25~100배 성능 향상
승차 비용을위한 승객 분석 및제품 개발에 활용
예측 광고와 분석 활용
비지니스 어플리케이션
다양한 사용자/부서BI 어플리케이션 지원
백엔드 서비스 활용 서비스 구조의 분석솔루션 구축 제공
관려형서비스 –프로비져닝, 백업, 업그레이드, 보안기능, 압축등의모든기능이관리형으로제공되어고객은비지니스에집중
사용시간과금 –초기비용없이사용한만큼과금되며, 필요하면다수의클러스터도바로생성
타 AWS 서비스와연동 –다른 AWS 서비스들과연동되어쉽게파이트라인을구성가능
Infosys Information
Platform (IIP) 를 AWS에구성
분석 서비스제공
제품 및 고객 분석시스템
수천이상의고객분들이 Mission-Critical 서비스에이미 Amazon Redshift를사용하고있습니다.
왜 사용할까요? Technology 관점
11
이점 #1: Amazon Redshift = 빠른 성능
노드 간 4GB/sec 통신이 가능하며 I/O 작업이 빠른
워크로드에 H/W를 최적화
향상된 네트워크 지원, 노드 당 1M Packet/sec
용량 최적화, 연산 최적화 노드 타입 지원
자동 패치
새 Dense Storage (HDD) 인스턴스 타입은 메모리 2x, 연산성능 2x, 디스크
대역폭 1.5x 향상이 있었으나, 동일한 가격.
이점 #2-1: Amazon Redshift = 낮은 비용
DS2 (HDD)Price Per Hour for
DS2.XL Single NodeEffective Annual
Price per TB compressed
On-Demand $ 0.850 $ 3,725
1 Year Reservation $ 0.500 $ 2,190
3 Year Reservation $ 0.228 $ 999
DC1 (SSD)Price Per Hour for DC1.L Single Node
Effective AnnualPrice per TB compressed
On-Demand $ 0.250 $ 13,690
1 Year Reservation $ 0.161 $ 8,795
3 Year Reservation $ 0.100 $ 5,500
Pricing is simple
노드수 x 시간비용
Leader 노드는무료
초기납입금액없음
사용한만큼만지불
N. Virginia region pricing
이점 #2-2: Amazon Redshift = 낮은 비용
Dense Storage (DS2.XL) 2 TB HDD, 31 GB RAM, 2 slices/4 cores
Single Node (2 TB)
Cluster 2-32 Nodes (4 TB – 64 TB)
Dense Storage (DS2.8XL) 16 TB HDD, 244 GB RAM, 16 slices/36 cores, 10 GigE
Cluster 2-128 Nodes (32 TB – 2 PB)
Note: Nodes not to scale
이점 #3-1: Amazon Redshift = 완전 관리형 서비스
지속적/증분백업노드간카피본지원
지속적증분백업을안전한 S3(Amazon
Simple Storage Service) 에저장
지속적증분백업을다른리젼으로복제지원
Streaming 복구지원으로빠른사용가능
Amazon S3
Amazon S3
Region 1
Region 2
이점 #3-2: Amazon Redshift = 완전 관리형 서비스
Amazon S3
Amazon S3
Region 1
Region 2
내결함을위한관리지원
디스크결함
노드결함
네트워크결함
Availability Zone/Region 수준의이벤트발생대비
이점 #4: 다양한 보안 기능• S3 로부터 암호화된 데이터 로딩
• SSL 을 이요한 암호화 통신 지원
• ECDHE perfect forward security 지원
• Amazon VPC 를 지용한 네트워크 보안
• 데이터 저장 시 암호화 지원
– 디스크 블럭 암호화와 S3 암호화 지원
– 블럭 키, 클러스터 키, 마스터 키 AES-256 암호화
– 기 보유 HSM, AWS CloudHSM & KMS 지원
• 데이터베이스 Audit logging 지원
• AWS CloudTrail 지원
• SOC 1/2/3, PCI-DSS, FedRAMP, BAA
10 GigE(HPC)
IngestionBackupRestore
Customer VPC
InternalVPC
JDBC/ODBC
이점 #5: 빠르게 지속적으로 새로운 기능 추가
• 지원 Region – N. Virginia, Oregon, Dublin, Tokyo, Singapore, Sydney, Frankfurt, GovCloud, N.California
• 보안 인증 – PCI, SOC 1/2/3
• 보안 기능 – Load/unload encrypted files, Resource-level IAM, Temporary credentials, HSM/CloudHSM, Audit Logging, KMS
• 관리편의기능 – Snapshot sharing, backup/restore progress indicators, SNS Alerts, faster cluster creation, cross-region backups, faster resize, WLM resource management
• 쿼리 – Regex, Cursors, MD5, SHA1, Time zone, workload queue timeout, approximate count distinct, distributed tables, concurrency increased to 50 from 15
• 데이터 로딩 – S3 Manifest, LZOP/LZO, JSON built-ins, UTF-8 4byte, invalid character substitution, CSV, auto datetime format detection, epoch, load from EMR/HDFS/SSH, BZIP2, AVRO, Kinesis Firehose
• 기능 추가 리스트: http://docs.aws.amazon.com/redshift/latest/dg/doc-history.html
이점 #6: 강력하고 편리한 기능 들
• Approximate 함수지원
• 사용자정의함수(UDF) 지원
• Machine Learning 연계기능
• Data Science 용이
Amazon ML
이점 #7: Amazon Redshift = 다양한 파트너 시스템/솔루션 지원
데이터통합 시스템통합비지니스인텔리젼스
이점 #8: 다양한 AWS 서비스와 통합 지원
DynamoDB
EMR
S3
EC2/SSH
RDS/Aurora
Amazon Redshift
Amazon Kinesis
MachineLearning
Data Pipeline
CloudSearch
Mobile Analytics
Use-case 소개
22
Amazon.com – 웹로그 분석
Amazon.com의 웹로그 분석1PB+ 워크로드, 일간 2TB 축적, 매년 67% 증가
가장 큰 테이블: 400 TB
고객 행동 파악 분석 필요 요건
현재 솔루션기존 DW—시간 당 일주일 치 분석
Hadoop—시간 당 한 달 치 분석
15개월 치 1PB 처리 쿼리에 약 14분 소요 !
500억 Row 데이터 로딩에 약 10분 소요!
210억 Row 데이터와 100억 Row 데이터 Join 쿼리의 경우 기존
Hive에서 3일 2 시간 !
파이프라인 로드에 기존 90 시간 (Oracle) to 8 시간 !
64 개 클러스터
800 노드
13PB 스토리지
2 데이터 베이스 관리자
Amazon
Redshift로
빠르고 쉽게~
기지국에서 수 Petabyte규모데이터 생성
확장이 어렵고 고비용 발생
기존 데이터센터와 같이안전하게 확장 가능한 방법이필요
NTT Docomo – 모바일 사용자 분석
Data
Source
ET
DirectConnect
Client
Forwarder
LoaderState
Management
SandboxRedshift
S3
기존 DW에서 마이그레이션 @ NTT Docomo
68 백만 고객
모바일 네트워크에서 매일 수십
Terabyte 데이터 생성
전체 6PB (비압축)
기존 DW: 데이터 센터 내 Greenplum
마이그레이션 후
125 node DS2.8XL cluster
4,500 vCPUs, 30TB RAM
6 PB uncompressed
10x 빠른 분석 쿼리
운영 업무와 새로운 분석 서비스도입에 50% 이상 시간 빠르게적용
GE, 요건 사항
• 디지털화를 기술 운영의 요건이 증가
• IoT 비지니스에 대한 집중과 비지니스와 머신들에서 생성되는 다양한 데이터 분석을 통해 Insight 확보
• 여러 기술적인 요건을 같이할 최고의 파트너가 필요. GE는 이미 9000개의 워크로드를 AWS로 마이그레이션 하고 있음
GE 데이터 웨어하우징 관련 고민
• 확장성, 서비스 연계성, 안정성, 그리고 빠른 개발환경 지원 등을 고민
• 빠르게 디지털화하면서 비지니스와 머신에서 생성되는 데이터 저장 분석을 위한 확장성이 필요
• Self-serve BI 전략을 위해 BI를 위한 컴퓨트 환경은유지해야 함
• 데이터가 늘고 사용이 늘면서 매우 안정적이고 강력한 플랫폼이 필요
• 쉽게 배우고 접근할 수 있는 분석 솔루션이 필요
솔루션 아키텍쳐• 데이터 소스: SAP
• 데이터 웨어하우스: – Amazon Redshift
• 데이터 병합: – Matillion ETL for
Amazon Redshift (AWS Marketplace)
– HVR
• 데이터 시각화: – Tableau
(AWS Marketplace)SAP
32 x DC1 Nodes
Amazon Redshift Cluster
Staging DWH
Matillion ETL
M3.Large
ELT
Tableau
CDC Data Replication (HVR)
Migration 을 도와드립니다.
30
수분내로바로마이그레이션을시작
이기종 DB 엔진지원: Aurora, Oracle,
SQL Server, MySQL and PostgreSQL
전체이관또는변경분이관지원
약 TB 에 $3 비용
문제발생시자동 DMS 인스턴스교환(AWS DMS)
ENGINE X Amazon Redshift
ETL 스크립트
SQL 코드
Adhoc . 쿼리
일반적인 마이그레이션 방법
스키마 변환 데이터베이스 마이그레이션
데이터 타입 매핑
압축 , 인코딩 , 소트 키 ,분산 키 등 선택
DDL 수행
스키마 & 데이터 변환 데이터 마이크레이션 수행SQL 코드 변경
전체 데이터 이관
변경 분 이관
Assess Gaps
Stored Procedures
Funct ions
1 2
3
4
몇 번의 클릭으로 스키마 변경
소스로 Oracle, Teradata, Greenplum그리고 Netezza 지원
자동 스키마 최적화 기능
어플리케이션 SQL code 변환
분석 후 상세 리포트 제공
AWS Schema Conversion Tool
(AWS SCT)
AWS Schema Conversion Tool
AWS DMS: Change data capture
Replication 인스턴스
소스데이터베이스
타겟데이터베이스
업데이트
t1 t2
t1
t2
트랜젝션 전체 이관후 변경분 복제
Beyond Amazon Redshift(다른 AWS 서비스들 과 연동)
36
Kinesis Stream, Kinesis Firehose
Elastic MapReduce
Amazon Machine Learning
Amazon QuickSight
QuickSight Architecture 예제
Amazon Redshift
BI 사용자Amazon S3 Amazon QuickSightVisualize
AWS Big Data 관련 포트폴리오Collect Store Analyze
Amazon Kinesis Firehose
AWS Direct Connect
Amazon Snowball
Amazon Kinesis Analytics
Amazon KinesisStreams
Amazon S3 Amazon Glacier
Amazon CloudSearch
Amazon RDS, Amazon Aurora
Amazon Dynamo DB
Amazon Elasticsearch Service
Amazon EMR Amazon EC2
Amazon
Redshift
Amazon Machine
Learning
Amazon
QuickSight
AWS Data PipelineAWS Database Migration Service
감사합니다