View
527
Download
1
Category
Preview:
Citation preview
빅데이터 워크로드를 위한AWS 활용방법김기완 | 솔루션즈 아키텍트Amazon Web Services
Ever Increasing Big Data
Volume
Velocity
Variety
Veracity
Value
자주 이야기되는 주제들 – 비즈니스와 IT
우리가 빅 데이터로 해결해야 할 문제를 가지고 있습
니까?
어떻게 AWS로 데이터는 옮기고 저장할 수 있나요?
AWS에서 어떠한서비스들을 사용해야 합니까?
원하는 결과를 얻기 위해서 어떠한데이터를 수집하여야 합니까?
알려진 툴을 쓸 수있나요? 어떤 기술이 더 필요합니
까?
3rd party 빅 데이터 솔루션을 AWS에서 사용할 수 있
습니까?
Performance and Reliability
Business vs. IT
Monolithic Architecture
빅 데이터와 Monolithic Tool
빅 데이터 플랫폼 준비 – 달성하고자 하는 목표로부터
백화점 (온라인/오프라인)
매출 증대
시장 점유율 증대
고객 행복
브랜드 가치
재고 최적화
공급망 효율화
목표
빅 데이터 플랫폼 준비 – 데이터 포인트 (메트릭)
PURCHASE MOVEMENT INFLUENCE
데이터로부터 비즈니스 결과를 얻어낼 수 있는 플랫폼
PURCHASE
MOVEMENT
INFLUENCE
데이터 유입 /수집
데이터 소비 /시각화저장 처리 /
분석
1 40 9
5
매출 증대
시장 점유율 증대
고객 행복
브랜드 가치
재고 최적화
공급망 효율화
START HERE비즈니스로부터
빅 데이터와 클라우드 컴퓨팅
• 매우 자주 엄청난 양의 데이터• 대량의, 다양하고 빠르게 유입되는 데이터• 반복적이고 실험적인 데이터 처리 및 분석• 급격한 사용량 변화• 절대적인 성능보다는 처리 시간이 중요
• 엄청난, 일반적으로 무제한의 스토리지• 다양한 컴퓨트, 스토리지, 네트워크 서비스• 반복적이고 실험적인 인프라의 배포 및 사용• 급격한 사용량 변화에 최적화된 자원 사용 및 비용 구조• 병렬 처리를 통한 처리 시간 단축
빅데이터 클라우드 컴퓨팅
빅 데이터 플랫폼을 위한 AWS 서비스 구성 요소
Amazon S3
• 오브젝트 스토리지• 무제한 저장 가능• 99.999999999% 내구성• 자동화된 라이프사이클• 이벤트 기반 프로세싱
Amazon Kinesis
• 실시간 데이터 분석• 높은 처리량• 탄력성• 쉬운 사용• AWS 서비스와 통합 용이
(S3, Redshift, DynamoDB)
Amazon DynamoDB
• NoSQL DB• 완전 관리형 서비스• 데이터베이스 크기와
상관없이 10ms 미만의응답시간
Amazon Redshift
• 관계형 DW 서비스• MPP (병렬 처리)• 페타바이트 스케일• 완전 관리형 서비스
Amazon Elastic MapReduce
• 하둡 클러스터• Hive, Pig, Impala, Hbase• 완전 관리형 서비스• AWS 서비스들과 통합 용이
(S3, Redshift, DynamoDB)
Amazon Redshift Amazon Elastic MapReduce
데이터웨어하우스
반정형데이터
Amazon Glacier
여러 서비스들의 조합을 통하여 최적의 아키텍처를 설계
Amazon Simple Storage Service
데이터 저장소 백업/아키이빙
Amazon DynamoDB
Amazon Machine Learning
Amazon Kinesis
NoSQL 예측모델
기타어플리케이션
실시간데이터
AmazonEC2
Analytics on 450k subscribers using Amazon Redshift
Ad campaign effectiveness analysis platform
Financial Simulations Platform
Large scale clinical data analytic platformTrading history analyticsAnalytics on 4 PB
data warehouse
Gaming Analytics forover 15 million users
Mobile Analytics for over200M devices
Real-time CommerceRecommendation
AWS 기반 주요 빅데이터 사례
Media streaming
Securities Trading Data Archiving
Financial markets analytics
디지털 모바일 데이터 플랫폼 자동화 고객 소통 IOT
데이터에 대한 탁월성 분석에 대한 탁월성
빅 데이터의 여섯 가지 일반적인 분야
A full-service residential real estate brokerage
Redfin 은 수억 건의부동산 정보와
수백만의 고객 정보를관리
”Hot Homes” 알고리즘사용. 500여 종류의특성들을 분석하여
자동으로 매매 가능성을계산
“Day One” 부터 AWS 클라우드를 모든 부분에
사용
https://aws.amazon.com/solutions/case-studies/redfin/
빅 데이터 플랫폼 구축 - 비즈니스 기회 포착
Hot Homes
Modernization Go mobile Data platform Automation Engagement IOT
There's an 80% chance this home will sell in the next 11 days – go tour it soon.
빅 데이터 플랫폼 구축 - 비즈니스 기회 포착
Ingest/Collect
Consume/visualizeStore Process/
analyze
Data1 4
0 95
Amazon S3Data lake Amazon EMR
AmazonKinesis
Amazon RedShift
Answers & Insights
Hot HomesUsers
Properties
Agents
유저 프로파일에 의한 추천
Hot HomesSimilar Homes
Agent Follow-upAgent Scorecard
MarketingA/B TestingReal Time Data…
Amazon DynamoDB
BI / Reporting
빅 데이터 플랫폼 구축 - 비즈니스 기회 포착
American upscale fashion retailer
노드스트롬은 미국과 캐나다에 총 323개의 스토어를 운영하고 있습니다.다른 모든 경쟁자들보다많은 지역에 많은 수의 상점을 운영하고 있습니다.
옷, 신발, 화장품 및 악세사리를 판매하는패션 리테일러
노드스트롬은 AWS에All-in 하고 있습니다.
https://aws.amazon.com/solutions/case-studies/nordstrom/
빅 데이터 플랫폼 구축 - 개인화
빅 데이터 플랫폼 구축 - 개인화
Ingest/Collect
Consume/visualizeStore Process/
analyze
Data1 4
0 95
Outcomes & Insights
초단위의 개인화된 추천
스타일리스트들의 전문성을 모든 고객들에게 제공
비용 절감 50% 이상
…
Mobile Users
Desktop Users
Analytics Tools
Online Stylist
Amazon RedShift
AmazonKinesis
AWSLambda
Amazon DynamoDB
AWSLambda
Amazon S3Data Storage
빅 데이터 플랫폼 구축 - 개인화
Operates financial exchanges around the world
선도적인 주가지수 제공
41,000+ INDEXES다양한 지역, 종류
Provides technology, trading, intelligence,
surveillance (감독), and listing services
100여개의 데이터제품들을 250만명 이상의투자 전문가들이 98개국이상의 고객들에게 제공
빅 데이터 플랫폼 구축 - Hybrid
나스닥은 혁신을 가속화하고 시장으로의 접근 속도를 높임과 동시에 분석 툴 및서비스를 최적의 성능으로 유지하면서 데이터 웨어하우스의 비용을 낮추고,수집되는 민감정보 데이터의 보안을 유지하기를 원했습니다.
• 고비용레거시 DW 시스템 ($1.16M /yr)
• 제한된 용량 (1 year of data)
• 많은 양의 데이터 (4-8B rows daily)
• 다양한 데이터 소스
OUR GLOBAL PLATFORM
CAN HANDLE MORE THAN
1 MILLIONMESSAGES/SECOND
AT SUB-40 MICROSECONDS
AVERAGE SPEEDS
빅 데이터 플랫폼 구축 - Hybrid
Ingest/Collect
Consume/visualizeStore Process/
analyze
Data1 4
0 95
AmazonDirect Connect
Amazon S3Data lake
Amazon RedShift
virtual private cloud
Answers & Insights
Amazon SNS
Amazon SQSClient Alerts
매일 장 종료후분석
회사별보고서
예외적인거래
…
Daily trades
빅 데이터 플랫폼 구축 - Hybrid
빅 데이터 플랫폼 구축 – 하이브리드 구성 (NasDaQ OMX FinQloud)
FinQloud Regulatory Records Retention (R3)https://aws.amazon.com/solutions/case-studies/nasdaq-finqloud/
Event Sourcing
IoT Rules
Control Plane
IoT Shadow
Big Data Service
Event Processing Service
CQRS
Polyglot Users
Operations
Consumers
Consumers
사물인터넷(IoT)과 Big Data
DEVICE SDK연결, 인증 및메세지교환을위한 클라이언트 라이브러리
DEVICE GATEWAYMQTT와 HTTP를 통한
디바이스 통신
AUTHENTICATION상호인증 및암호화를
통한 보안
RULES ENGINE규칙기반의메세지
변환및 AWS 서비스와의연동
AWS Services- - - - -
3P Services
SHADOW연결 유/무에 상관없이사물의 상태를 저장
APPLICATIONS
AWS IoT API
REGISTRY사물에 대한 정보 및 관리
AWS IOT 서비스 개요
하나의 도구로모든 것을 통제
생성
수집 및 저장
분석 및 컴퓨팅
협업및 공유
a
AmazonDynamoDB
Amazon RDS
AmazonRedshift
AWS Direct Connect
AWS Storage Gateway
AWS Import/ Export
Amazon GlacierAmazon S3Amazon
Kinesis Amazon EMR
단계별 AWS 서비스 – 수집 및 저장
생성
수집 및 저장
분석 및 컴퓨팅
협업및 공유
a
Amazon EC2 Amazon EMRAmazon Kinesis
단계별 AWS 서비스 – 분석 및 컴퓨팅
생성
수집 및 저장
분석 및 컴퓨팅
협업 및 공유
aAmazonRedshift
AmazonDynamoDB
Amazon RDS
S3 Amazon EC2 Amazon EMR
Amazon CloudFront
AWS CloudFormation
AWSData Pipeline
단계별 AWS 서비스 – 협업 및 공유
CacheSQL
Request RateHigh Low
Cost/GBHigh Low
LatencyLow High
Data VolumeLow High
GlacierSt
ruct
ure
NoSQL
Hot Data Warm Data Cold Data
Low
High
Search
데이터 온도에 따른 올바른 데이터 저장소 선택
수집 저장 분석 활용
A
iOS Android
Web Apps
Logstash
Amazon RDS
Amazon DynamoDB
AmazonES
AmazonS3
ApacheKafka
AmazonGlacier
AmazonKinesis
AmazonDynamoDB
Amazon Redshift
Impala
Pig
Amazon ML
Streaming
AmazonKinesis
AWSLambda
Amaz
on E
last
ic M
apRe
duce
AmazonElastiCache
Sear
ch
SQL
NoS
QL
Cac
he
Stre
am P
roce
ssin
gBa
tch
Inte
ract
ive
Logg
ing
Stre
am S
tora
ge
IoT
Appl
icat
ions
File
Sto
rage An
alys
is &
Vis
ualiz
atio
n
Hot
Cold
Warm
Hot
Slow
Hot
ML
Fast
Fast
Amazon QuickSight
Transactional Data
File Data
Stream Data
Not
eboo
ks
데이터 예측
Apps & APIs
Mobile Apps
IDE
Search Data
ETL
다양한 오픈 소스 및 서드 파티 도구 연계
빅 데이터 플랫폼 구축 - 데이터 중심의 비즈니스
• Business Outcome – 빅 데이터 분석을 통해 얻고자 하는 비즈니스 효과 및 과제로부터 시작하여전체 디자인을 설계
• Experiment – 작게 시작하며, 최대한 많은 아이디어를 구체화하여 검증하고, 성공한 모델을 크게 확장
• Agile & Timely – 빅 데이터 처리 플랫폼을 수 분만에 빠르게 생성하고 변하는 비즈니스 요건에 맞춰빠르게 사용할 수 있는 풍부한 플랫폼 서비스의 활용
빅데이터 처리 이후의 과제
세 가지 종류의 데이터 분석
Retrospective분석 & 리포트
Here-and-now리얼 타임 처리 및
대쉬보드
Predictions스마트
어플리케이션
Amazon Kinesis Amazon EC2 AWS Lambda
Amazon Redshift, Amazon RDS Amazon S3
Amazon EMR
기계 학습딥러닝
Amazon Machine Learning 서비스 소개
• 개발자들을 위한 사용하기 쉬운 완전 관리형 서비스
• 아마존의 서비스들을 활용한 안정적이고 강력한 서비스
• AWS에 이미 저장되어 있는 데이터들을 활용한 서비스
• 수 초안에 머신 러닝 모델을 운영 환경에 적용
Amazon Machine Learning - 개발자 친화성 및 간편한 예측 분석
• 직관적이고 빠르게 자동 모델생성– 데이터 추출– 모델트레이닝, 품질검사, 튜닝– 배포 및 관리
• 모델 라이프사이클을 API 및 SDK를 통해 자동화– Java, Python, .NET, JavaScript, Ruby, PHP언어 지원– AWS Mobile SDK을 통한손쉬운앱개발
• 꼭 필요한 예측 모델 제공– Binary classification : Yes / No 분류– Multiclass classification : 카테고리 분류– Regression : 숫자의값예측
인공 지능서비스를 위한 AWS 서비스
p2.16xlarge- vCPU 64/ 16 GPU- 메모리: 732GiB - 병렬코어 39,636- GPU 메모리: 192GB- 대역폭: 20GB
Amazon EC2 Instance for Deep Learning
Amazon Deep Scalable Sparse Tensor Network Engine (DSSTNE)
Amazon Alexa
AWS Lambda와연계하는인공 지능음성 인식서비스
• 아마존주문 전/후예측시스템활용• 머신러닝기법을 통한 '고객이 주문
전에 배송계획예측’• 사내 총 주간 추천예측 500억회
빅 데이터 플랫폼 구축 - 데이터 중심의 비즈니스
• 데이터 버스 구성 – 데이터의 수집, 저장, 분석, 시각화, 예측등 각 단계에서 데이터가 효율적으로사용될 수 있도록 데이터 버스를 효과적으로 구성
• 적합한 도구 사용 – 데이터의 엑세스 패턴, 온도, 작업 형태에 따라 올바른 저장소 및 도구를 사용
• 관리형 서비스 – 데이터 및 비즈니스 요건의 변화에 대한 빠른 대응 및 비용 효율적인 빅 데이터 환경 관리를 위하여 관리형 서비스 사용
• 다양한 실험 – 적은 비용으로 많은 실험을 수행함으로써새로운 비즈니스 요구에 빠르게 대응
How would you like to take your business forward today?AWS will help you!
New market demands
INNOVATION
Speed to deliver
AGILITY
Reprioritization of spend
OPTIMIZATION
다시 처음으로부터
Recommended