52

Bdwf11 netezza james_zheng

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Bdwf11 netezza james_zheng
Page 2: Bdwf11 netezza james_zheng

Netezza

& BigData —— 从数据获取商业价值

郑晓军

Netezza数据仓库

渠道经理

IBM(中国)有限公司

软件部

Page 3: Bdwf11 netezza james_zheng

© 2011 IBM Corporation3

内容提要

从数据获取价值

商业智能与云计算环境

数据仓库一体机解决方案 —— Netezza

关于BigData与数据仓库云的探讨

Page 4: Bdwf11 netezza james_zheng

© 2011 IBM Corporation4

从数据获得价值

信息的重要性不言而喻– 业务重心从流程自动化转向对市场的把握– 不确定性领域成为业务竞争焦点– 拥有信息 = 拥有财富

IT的发展为数据的积累和采集提供了坚实的基础– 传统业务系统的普及促进数据的积累– 互联网、IT技术发展促进数据的采集

数据的分析并将决策应用于业务是未来IT业 具发展潜力的一块– 数据仓库在中国历经10多年发展

• 近两年依然势头不减,并有加速发展的趋势

– IBM:“智慧地球”、”智慧城市”– 切身体会:

• 移动客户呼叫行为分析 – 2000• 证交所内幕交易监测 – 2003• 移动通信公司竞争分析 – 2004• 公安系统案发特点分析 – 2008• 股指期货套利 – 2010

Page 5: Bdwf11 netezza james_zheng

© 2011 IBM Corporation5

内容提要

从数据获取价值

商业智能与云计算环境

数据仓库一体机解决方案 —— Netezza

关于BigData与数据仓库云的探讨

Page 6: Bdwf11 netezza james_zheng

© 2011 IBM Corporation6

云计算环境的兴起与数据仓库

云计算环境– 低成本

• 大量PC服务器组合

– 高扩展性 + 动态扩展• 设备自由扩充、应用动态部署、适应业务的伸缩

– 大容量、大数据量• 数以千计服务器

– 采用冗余技术支持高可用性

数据仓库领域看到了机会– BigData

• 分布式并行文件系统• Map Reduce数据分割与访问执行

– SQL支持• 以Hive为代表的SQL界面支持

– 在BigData技术上构建下一代数据仓库成为热门话题• IBM与联通某省的试验项目

– 历史详单数据

• 阿里巴巴– 约1600台PC服务器构建Hadoop + Hive数据库

Page 7: Bdwf11 netezza james_zheng

© 2011 IBM Corporation7

内容提要

从数据获取价值

商业智能与云计算环境

数据仓库一体机解决方案 —— Netezza

关于BigData与数据仓库云的探讨

Page 8: Bdwf11 netezza james_zheng

© 2011 IBM Corporation8

传统数据仓库系统的松散构建模式

ClientBI Applications

Local Applications

RDBMS

Server

Storage

+

+

RDBMS

Server

Storage

ODBC JDBCOLE DBSQL/92/99

Page 9: Bdwf11 netezza james_zheng

© 2011 IBM Corporation9

数据仓库中数据库服务器的关键特征

数据仓库的访问特征:大查询、复杂查询– 涉及的数据量大、范围大

• 传统细颗粒索引作用有限• 顺序扫描压力增大

– 多表连接– 涉及的聚合运算量大– 并发请求数较少

分解大查询为多个小任务在各个节点上运行– 负载均衡多个查询请求已不是系统调优的主要目的

各个节点间如何保证不互相影响、等待– 大程度减少节点间的交互 – 彻底并行– Share Nothing or Share Everything (Share Disk)

• Share Nothing是数据仓库的典型结构

Page 10: Bdwf11 netezza james_zheng

© 2011 IBM Corporation10

分区数据库模型

数据库被分成多个分区

数据库分区运行在各个节点上

每个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches, etc.)

数据库协调所有分区进行并行处理

对用户和应用来看,是一个单独的系统

Database Partition

非共享体系结构(Share Nothing)

Fast communication manager

Data Log

data log data log data log data log

追求线性扩展能力!

Page 11: Bdwf11 netezza james_zheng

© 2011 IBM Corporation11

查询性能得到有效地提高

数据库架构服务器 存储

内存 CPUs 群集/ SMP

架构 部署 LUNs 磁盘容量

RAID100% 100%

BCU 方法

系统

软件

Share Nothing 架构

LUN部署每个Array 中LUN的数量 磁盘容量 RAID100%

存储

实际吞吐量

50%

传统的方法

30%+ 消耗在 I/O

较高的 I/O 等待

处理器使用较低

BI 性能问题 60%以上和I/O相关

+ + = TotalStorage® 高效的吞吐

Balanced Configuration Unit - 所要达到的效果

一体机的前身……

Page 13: Bdwf11 netezza james_zheng

© 2011 IBM Corporation13

Netezza AMPP™架构

高级分析高级分析

数据加载数据加载

ETLETL

BI应用BI应用

应用

FPGA

Memory

CPU

FPGA

Memory

CPU

FPGA

Memory

CPU

Hostshosts

磁盘阵列柜S-Blades™

网络结构

Netezza 一体机

Page 14: Bdwf11 netezza james_zheng

© 2011 IBM Corporation14

Confidential

传统的数据仓库架构: 服务器和存储之间的数据流存在重大瓶颈!!

查询结果

查询请求

存储服务器 关系型数据库软件

数据

数据首先被搬运到

内存,然后由 SQL 进行处理

大批的数据从磁盘中

“搬移”到内存,成为

整个系统的瓶颈

Page 15: Bdwf11 netezza james_zheng

© 2011 IBM Corporation15

Confidential

查询结果

Netezza数据仓库设备

Netezza数据仓库专用设备: 性能的革命性突破

MPP “智能存储”: 数据处理单元与存储相结合

SMP主机(2-4 CPU)

查询请求

网络流量: 仅为现有

系统的1%

CPU:

仅为现有

系统的2%

数据在进入到内存之前,已经经

过流式的数据处理

Page 16: Bdwf11 netezza james_zheng

© 2011 IBM Corporation16

CPUs

Netezza数据库加速卡Memory

FPGA

Disk

“只返回答案,而

不是原始数据”

Page 17: Bdwf11 netezza james_zheng

© 2011 IBM Corporation17

FPGA 简要说明

FPGA (Field Programmable Gate Array) 即现场可编程门阵列– 它是在PAL, GAL, EPLD等可编程器件的基础上进一步发展的产物

FPGA是作为专业集成电路(ASIC)领域中的一种半定制电路而出现的– 既解决了定制电路的灵活性不足– 又克服了原有可编程器件门电路数有限的缺点

FPGA的使用非常灵活– 同一片FPGA通过不同的编程数据可以产程不同的电路功能

FPGA在通信、数据处理、网络、仪器、工业控制、军事和航空航天

等众多领域得到广泛的应用– FPGA是通用集成电路器件

随着功耗和成本的进一步降低,FPGA还将进入更多的应用领域– Netezza把FPGA带入了数据库一体机的领域!

Page 18: Bdwf11 netezza james_zheng

© 2011 IBM Corporation18

FPGA 技术 – Bit流处理

FPGAs跟踪业界领先的优势半导体技术

这种技术的可定制化让我们得以不断增加新特性

它的灵活性促使其在消费类电子产品中得以快速应用– DVD播放器

– 等离子显示器– HDTV– 3D TV

军事领域利用其实现低能耗下的高性能

实时video 和 audio 处理

Page 19: Bdwf11 netezza james_zheng

© 2011 IBM Corporation19

Netezza数据流处理程序

FPGA Core CPU Core

解压 投影(列) 过滤(行)

每个 “Snippet处理器” (FPGA+CPU) 以高于115MB/秒的速度处理数据库的

数据; 高压缩率 = 性能的提高

FPGA 的实际处理吞吐量:

460MB/s*

SELECT DISTRICT, PRODUCTGRP,SUM(NRX)

From MTHLY_RX_TERR_DATAWHERE MONTH=‘20091201’AND MARKET=509123AND SPECIALTY=‘GASTRO’

Slice of TABLE MTHLY_RX_TERR_DATA

(compressed)

SELECT DISTRICT,

PRODUCTGRP,SUM(NRX)

WHERE MONTH=‘20091201’AND MARKET=509123AND SPECIALTY=‘GASTRO’

SUM(NRX)

聚合

∑连接, 汇总, 等.

Page 20: Bdwf11 netezza james_zheng

© 2011 IBM Corporation20

Confidential

Netezza TwinFin™ 设备

Page 20

高性能数据库引擎流加载,聚合,排序等

SQL编译器查询计划优化管理

处理器 &数据库逻辑流

用户数据切片互换和镜像分区高速数据流

SMP主机

Snippet Blades™

(S-Blades™)

磁盘阵列柜

Page 21: Bdwf11 netezza james_zheng

© 2011 IBM Corporation21

Netezza S-Blade™

Page 21

Page 22: Bdwf11 netezza james_zheng

© 2011 IBM Corporation22

Netezza S-Blade 构件

IBM刀片服务器 Netezza数据库加速器

Page 23: Bdwf11 netezza james_zheng

© 2011 IBM Corporation23

Netezza TwinFin™12系统规格

• 8 个磁盘阵列柜• 96个1TB SAS 硬盘 (4 热备份)

• RAID 1 镜像

• 12个Netezza S-Blades™:• 2 Intel Quad-Core 2+ GHz CPUs• 4 Dual-Engine 125 MHz FPGAs

• 16 GB DDR2 RAM• Linux 64-bit Kernel

• 2个主机 (1主1备):• 2 个Quad-Core Intel 2.6 GHz CPUs

• 7x146 GB SAS硬盘• Red Hat Linux 5 64-bit

• 用户数据容量: 128 TB**• 数据扫描速度: 145 TB/hr**• 装载速度(每个系统): 2+ TB/hr

• 电源要求: 7.6 kW• 制冷要求: 7.8 kW

**: 假设4倍压缩比

Page 24: Bdwf11 netezza james_zheng

© 2011 IBM Corporation24

数据镜像(Disk Mirroring)和故障保护(Failover)

所有用户数据和临时空间镜像保护

磁盘故障对查询和交易透明

故障磁盘驱动的数据自动重生成

坏数据区自动重写以及自动迁移至新安全区

主空间

镜像空间

临时空间

Page 25: Bdwf11 netezza james_zheng

© 2011 IBM Corporation25

TwinFin™ 存储和网络连接

“(TF6) 模块构建”

Disk Enclosures

S-Blades™

Hosts

32x3 Gb/s SAS

4x3 Gb/s SAS

2x GigE

10 GigEIP Switches

SAS Switches

Page 26: Bdwf11 netezza james_zheng

© 2011 IBM Corporation26

高可用性 – 系统关键数据的三重保护

磁盘层面的数据镜像以及故障保护技术

Raid 1实现不同磁盘之间的数据镜像

每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线

支持在线更换损坏磁盘

磁盘层面的数据镜像以及故障保护技术

Raid 1实现不同磁盘之间的数据镜像每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线支持在线更换损坏磁盘

S-Blade层面的互备

磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线

更换S-Blade

只读查询 (还没有返回数据的) 自动重新开始

交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始

S-Blade层面的互备

磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线

更换S-Blade只读查询 (还没有返回数据的) 自动重新开始交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始

Linux HA + 分布式块复制设备(DRDB Protocol C)

Linux HA 支持主机(HOST)的高可用性

分布式块复制设备采用严格同步的模式,保证主备机关键数据库文

件所在的目录保持严格同步,避免任何可能的控制文件丢失

Linux HA + 分布式块复制设备(DRDB Protocol C)

Linux HA 支持主机(HOST)的高可用性

分布式块复制设备采用严格同步的模式,保证主备机关键数据库文

件所在的目录保持严格同步,避免任何可能的控制文件丢失

Page 27: Bdwf11 netezza james_zheng

© 2011 IBM Corporation27

好的分布: 2.2万亿条记录

Page 28: Bdwf11 netezza james_zheng

© 2011 IBM Corporation28

Zone MapsTM – “自由”的存在,自动维护,无需干预

每个磁盘extent包含来自于各个

表的记录

我们在每个extent上跟踪字段的

大 小值

Zone maps可以对

date, timestamp, byteint, smallint, integer和bigint型数据生

当数据被loaded / updated / deleted时Zone maps自动更新

没有对load / update / delete 速度

的影响

Page 29: Bdwf11 netezza james_zheng

© 2011 IBM Corporation29

Zone Maps…自动分区

Zone Maps– 利用内在的数据顺序– 在一个数据切片内….

• 为表中的每一列(Integers, timestamps, dates型)– 按每个extent收集 大 小值– 每条搜集到的记录插入zonemap中为该表准备的数据区中.

当一个查询运行时, 数据切片减少到只扫描一部分extents

自动配置– 在搜集统计信息时Stats– 在Loads时– 在inserts, updates, loads和reclaims时.

Page 30: Bdwf11 netezza james_zheng

© 2011 IBM Corporation30

Zone Maps• Zone Maps可以用于只扫描相关数据

• 系统知道数据在不在extents上,并只扫描有关的表extents

Base Table

Page 31: Bdwf11 netezza james_zheng

© 2011 IBM Corporation31

后台表整理Table Grooming

简单,一步命令聚拢数据并召回reclaim未使用空间

在一个原子操作时磁盘extents的区域整理一次

作为后台过程运行,对执行查询的终端用户透明

删除的记录

新增加的记录

整理好的记录整理好的表

Page 32: Bdwf11 netezza james_zheng

© 2011 IBM Corporation32

简单的工作负载限制

可以在系统级设定一些简单的工作负载限制

这些限制可以在全局设,按 group 设或按 user 设

它们立即生效

极少需要应用基础级别的全局控制

Page 33: Bdwf11 netezza james_zheng

© 2011 IBM Corporation33

工作负载管理

工作负载管理 (WLM) 提供可选的功能来管理资源,在不同的多用户环境下设定资源使

用的优先级,来满足混合用户工作负载下的需求

保障资源分配(GRA)– 在多用户环境下在多组用户中分配 NPS资源的机制

分优先级查询执行 (PQE)– 更细粒度的控制资源分配,从计划到执行层面进一步扩充查询优先级的

控制

短查询倾向(SQB)– 在系统工作负载量很大的情况下,保证执行短查询的用户获得更快速的

高优先级的查询响应时间

工作负载限制(GRA)– 可以利用group定义的JOB MAXIMUM属性来控制被本组提交的活动的运

行任务的数量

Page 34: Bdwf11 netezza james_zheng

© 2011 IBM Corporation34

工作负载管理控制: GRA

当三个资源组都有任务在系统上运行时,GRA计划器开始工作来平衡任务和资源利用的关系,

如下图所示:

Page 35: Bdwf11 netezza james_zheng

© 2011 IBM Corporation35

GRA + PQE: 权重low=1, normal=2, high=4, critical=8

因而,critical任务将会获得Analysts组的50%分配资源中的80%,即总资源的40%。 Normal任

务将获得50%中20%,即总资源的10%

Page 36: Bdwf11 netezza james_zheng

© 2011 IBM Corporation36

缺省的工作负载管理: SQB

短查询倾向 (SQB)– 短查询优先于长时间运行的查询– 对执行短查询的用户实时响应– 在大型混合工作负载环境中SQB是非常重要的特征

8 Items or Less

Full Carts Here

Full Carts Here

Page 37: Bdwf11 netezza james_zheng

© 2011 IBM Corporation37

Linux Host

Backup Script

TSM Client

SPUs

TAPE LIB

TAPE LIB

TAPE LIB

ClientClient Client

Tivoli Storage Manager ServerBackup Media

LANSAN (Optional)

Netezza Performance Server

利用IBM Tivoli做的典型BAR配置

Page 38: Bdwf11 netezza james_zheng

© 2011 IBM Corporation38

备份与恢复特征

与第三方BAR工具的企业级集成和认证– 利用主流的backup和restore工具简化部署– 支持X/Open Backup Services API (XBSA) – 经过IBM Tivoli Storage Manager认证– 经过Symantec的Veritas NetBackup™ 认证

增量backup和restore– 与全量备份比较显著缩短备份时间– 在NZBACKUP工具中可用

– 全部或部分恢复选项

Sun Mon Tue Wed Thu Fri Sat

Full Diff Diff

CumDiff Diff Diff

Page 39: Bdwf11 netezza james_zheng

© 2011 IBM Corporation39

Netezza TwinFin 可靠的可扩展性

TF3 TF6 TF12 TF24 TF48 TF120

Snippet 处理器 24 48 96 192 384 960

容量

(TB) 8 16 32 64 128 320

压缩

(TB) 32 64 128 256 512 1280

...

1 10

... ...

容量

= 用户数据空间压缩

= 有效用户数据空间

以上特性配合Netezza独特的硬件流性加速技术

(FPGA),使TwinFin轻松达到PB级的数据可扩展

以上特性配合Netezza独特的硬件流性加速技术

(FPGA),使TwinFin轻松达到PB级的数据可扩展

基于share-nothing - 数据仓库级被证明 有效的架构基于share-nothing - 数据仓库级被证明 有效的架构

严格遵循MPP的原则,充分发挥系统资源的潜能:

1颗CPU Core 1颗FPGA Core 1个DISK

严格遵循MPP的原则,充分发挥系统资源的潜能:

1颗CPU Core 1颗FPGA Core 1个DISK

TwinFin之间通过SAS Switch直接相连,减少可能的

网络瓶颈

TwinFin之间通过SAS Switch直接相连,减少可能的

网络瓶颈

Page 40: Bdwf11 netezza james_zheng

© 2011 IBM Corporation40

Netezza 的管理简单

Page 41: Bdwf11 netezza james_zheng

© 2011 IBM Corporation41

报表&分析

Netezza一体机数据查询与装载

Actuate

Business Objects/SAP

Cognos (IBM)

Information Builders

Kalido

KXEN

MicroStrategy

Oracle OBIEE

QlikTech

Quest Software

SAS

SPSS (IBM)

Unica (IBM)

数据检出 数据载入

数据集成Ab Initio

Business Objects/SAP

Composite Software

Expressor Software

GoldenGate Software (Oracle)

Informatica

IBM Information Server

Sunopsis (Oracle)

WisdomForce

SQL

O

DB

C

JD

BC

O

LE-D

B

SQL

O

DB

C

JD

BC

O

LE-D

B

Page 42: Bdwf11 netezza james_zheng

© 2011 IBM Corporation42

FROM ADMIN.MBR_NM_ADDR, ADMIN.MBR_PRFL LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Member_Recency_CD ON

Member_Recency_CD.RCNCY_CD=ADMIN.MBR_PRFL.RCNCY_CD LEFT OUTER JOIN ADMIN.REF_FREQ_CD Member_Frequecncy_CD ON Member_Frequecncy_CD.FREQ_CD=ADMIN.MBR_PRFL.FREQ_CD LEFT OUTER JOIN ADMIN.REF_AMT_CD Member_Amount_CD ON Member_Amount_CD.AMT_CD=ADMIN.MBR_PRFL.AMT_CD,

ADMIN.MBR_BY_GIFT, ADMIN.MBR_GIFT_HIST LEFT OUTER JOIN ADMIN.REF_CPGN_TYP Gift_Campaign_Type ON

ADMIN.MBR_GIFT_HIST.CPGN_TYP=Gift_Campaign_Type.CPGN_TYP LEFT OUTER JOIN ADMIN.REF_DONOR_CLASS_CD Gift_Donor_Class ON ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD=Gift_Donor_Class.DONOR_CLASS_CD LEFT OUTER JOIN ADMIN.REF_CPGN_AUDNC_CD Gift_Cpgn_Audience ON ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD=Gift_Cpgn_Audience.CPGN_AUDNC_CD LEFT OUTER JOIN ADMIN.REF_PRFL_CD Gift_Profile_CD ON Gift_Profile_CD.PRFL_CD=ADMIN.MBR_GIFT_HIST.PRFL_CD LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Gift_Recency_CD ON Gift_Recency_CD.RCNCY_CD=ADMIN.MBR_GIFT_HIST.RCNCY_CD LEFT OUTER JOIN ADMIN.REF_FREQ_CD Gift_Frequency_CD ON ADMIN.MBR_GIFT_HIST.FREQ_CD=Gift_Frequency_CD.FREQ_CD LEFT OUTER JOIN ADMIN.REF_AMT_CD Gift_Amount_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD=Gift_Amount_CD.AMT_CD LEFT OUTER JOIN ADMIN.REF_RSP_CD Gift_Response_Code ON Gift_Response_Code.RSP_CD=ADMIN.MBR_GIFT_HIST.RSP_CD LEFT OUTER JOIN ADMIN.REF_SRC_CD Gift_Source_CD ON Gift_Source_CD.SRC_CD=ADMIN.MBR_GIFT_HIST.SRC_CD LEFT OUTER JOIN ADMIN.REF_PREM_TYP Gift_Premium_Type ON Gift_Premium_Type.PREM_TYP=ADMIN.MBR_GIFT_HIST.PREM_TYP LEFT OUTER JOIN ADMIN.REF_CARE_GVNG_CD Gift_Caregiver ON ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD=Gift_Caregiver.CARE_GVNG_CD WHERE ( ADMIN.MBR_NM_ADDR.MBR_ID=ADMIN.MBR_PRFL.MBR_ID ) AND ( ADMIN.MBR_BY_GIFT.MBR_ID=ADMIN.MBR_PRFL.MBR_ID ) AND ( ADMIN.MBR_PRFL.MBR_ID=ADMIN.MBR_GIFT_HIST.MBR_ID ) AND ( ADMIN.MBR_PRFL.MBR_ID = '00331415' )

GROUP BY ADMIN.MBR_NM_ADDR.ADDR_TYP, ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.MBR_NM_ADDR.ADDR_LINE_2, ADMIN.MBR_NM_ADDR.CITY, ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX, ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_PRFL.FREQ_CD, Member_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_PRFL.AMT_CD, Member_Frequecncy_CD.FREQ_CD_DESC, Member_Amount_CD.AMT_CD_DESC, Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC, Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC || ' ' ||

Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, ADMIN.MBR_BY_GIFT.FRST_GIFT_DT, ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT, ADMIN.MBR_BY_GIFT.LAST_GIFT_DT, ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT, ADMIN.MBR_BY_GIFT.HGST_GIFT_DT, ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH,

ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG, ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG, ADMIN.MBR_BY_GIFT.LFTM_AVG, ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD, ADMIN.MBR_GIFT_HIST.CPGN_TYP, Gift_Campaign_Type.CPGN_TYP_DESC, ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD, Gift_Donor_Class.DONOR_CLASS_CD_DESC, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD, Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC, ADMIN.MBR_GIFT_HIST.CPGN_YR, ADMIN.MBR_GIFT_HIST.PRFL_CD, ADMIN.MBR_GIFT_HIST.CPGN_NUM, ADMIN.MBR_GIFT_HIST.PKG_CD, Gift_Profile_CD.PRFL_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD, ADMIN.MBR_GIFT_HIST.FREQ_CD, Gift_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_GIFT_HIST.AMT_CD, Gift_Frequency_CD.FREQ_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD ||

ADMIN.MBR_GIFT_HIST.FREQ_CD, Gift_Amount_CD.AMT_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD ||

ADMIN.MBR_GIFT_HIST.FREQ_CD || ADMIN.MBR_GIFT_HIST.AMT_CD, ADMIN.MBR_GIFT_HIST.LOT_CD, ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD, ADMIN.MBR_GIFT_HIST.SRC_CD, Gift_Caregiver.CARE_GVNG_CD_DESC, ADMIN.MBR_GIFT_HIST.RSP_CD, Gift_Source_CD.SRC_CD, ADMIN.MBR_GIFT_HIST.PREM_TYP, Gift_Response_Code.RSP_CD_DESC, Gift_Premium_Type.PREM_TYP_DESC, ADMIN.MBR_GIFT_HIST.MBR_ID, ADMIN.MBR_GIFT_HIST.GIFT_DT, ADMIN.MBR_GIFT_HIST.GIFT_AMT, ADMIN.MBR_GIFT_HIST.AFFL_CD, ADMIN.MBR_GIFT_HIST.UPDT_NUM, ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT, ADMIN.MBR_NM_ADDR.SALU_LINE_1, ADMIN.MBR_NM_ADDR.SALU_LINE_2, ADMIN.MBR_NM_ADDR.SALU_LINE_3, ADMIN.MBR_PRFL.UPDT_NUM, ADMIN.MBR_PRFL.LAST_UPDT_DT, ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM, ADMIN.MBR_PRFL.MBR_ID, ADMIN.MBR_PRFL.ACCT_TYP, ADMIN.MBR_PRFL.ACCT_CAT_CD, ADMIN.MBR_PRFL.AFFL_CD, ADMIN.MBR_PRFL.CHAP_IND, ADMIN.MBR_PRFL.RSP_CD, ADMIN.MBR_PRFL.NEW_MBR_FLG, ADMIN.MBR_PRFL.SEED_FLG, ADMIN.MBR_PRFL.SLCITN_CD;

SELECT sum(ADMIN.MBR_GIFT_HIST.GIFT_AMT), count(ADMIN.MBR_GIFT_HIST.GIFT_DT), count(distinct ADMIN.MBR_GIFT_HIST.MBR_ID), ADMIN.MBR_NM_ADDR.ADDR_TYP, ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.MBR_NM_ADDR.ADDR_LINE_2, ADMIN.MBR_NM_ADDR.CITY, ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX, ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_PRFL.FREQ_CD, Member_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD ||

ADMIN.MBR_PRFL.AMT_CD, Member_Frequecncy_CD.FREQ_CD_DESC, Member_Amount_CD.AMT_CD_DESC, Member_Recency_CD.RCNCY_CD_DESC || ' ' ||

Member_Frequecncy_CD.FREQ_CD_DESC, Member_Recency_CD.RCNCY_CD_DESC || ' ' ||

Member_Frequecncy_CD.FREQ_CD_DESC || ' ' || Member_Amount_CD.AMT_CD_DESC,

ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, ADMIN.MBR_BY_GIFT.FRST_GIFT_DT, ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT, ADMIN.MBR_BY_GIFT.LAST_GIFT_DT, ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT, ADMIN.MBR_BY_GIFT.HGST_GIFT_DT, ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH, ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG, ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG, ADMIN.MBR_BY_GIFT.LFTM_AVG, ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD, ADMIN.MBR_GIFT_HIST.CPGN_TYP, Gift_Campaign_Type.CPGN_TYP_DESC, ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD, Gift_Donor_Class.DONOR_CLASS_CD_DESC, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD, Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC, ADMIN.MBR_GIFT_HIST.CPGN_YR, ADMIN.MBR_GIFT_HIST.PRFL_CD, ADMIN.MBR_GIFT_HIST.CPGN_NUM, ADMIN.MBR_GIFT_HIST.PKG_CD, Gift_Profile_CD.PRFL_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD, ADMIN.MBR_GIFT_HIST.FREQ_CD, Gift_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_GIFT_HIST.AMT_CD, Gift_Frequency_CD.FREQ_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD, Gift_Amount_CD.AMT_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD ||

通过BO拖拽生成的

6亿条记录的事实表

13个join

75个group by

Oracle: 用了数小时完成

Netezza: 只用了3分钟

复杂查询…ADMIN.MBR_GIFT_HIST.AMT_CD,

ADMIN.MBR_GIFT_HIST.LOT_CD, ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD, ADMIN.MBR_GIFT_HIST.SRC_CD, Gift_Caregiver.CARE_GVNG_CD_DESC, ADMIN.MBR_GIFT_HIST.RSP_CD, Gift_Source_CD.SRC_CD, ADMIN.MBR_GIFT_HIST.PREM_TYP, Gift_Response_Code.RSP_CD_DESC, Gift_Premium_Type.PREM_TYP_DESC, ADMIN.MBR_GIFT_HIST.MBR_ID, ADMIN.MBR_GIFT_HIST.GIFT_DT, ADMIN.MBR_GIFT_HIST.GIFT_AMT, ADMIN.MBR_GIFT_HIST.AFFL_CD, ADMIN.MBR_GIFT_HIST.UPDT_NUM, ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT, ADMIN.MBR_NM_ADDR.SALU_LINE_1, ADMIN.MBR_NM_ADDR.SALU_LINE_2, ADMIN.MBR_NM_ADDR.SALU_LINE_3, ADMIN.MBR_PRFL.UPDT_NUM, ADMIN.MBR_PRFL.LAST_UPDT_DT, ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM, ADMIN.MBR_PRFL.MBR_ID, ADMIN.MBR_PRFL.ACCT_TYP, ADMIN.MBR_PRFL.ACCT_CAT_CD, ADMIN.MBR_PRFL.AFFL_CD, ADMIN.MBR_PRFL.CHAP_IND, ADMIN.MBR_PRFL.RSP_CD, ADMIN.MBR_PRFL.NEW_MBR_FLG, ADMIN.MBR_PRFL.SEED_FLG, ADMIN.MBR_PRFL.SLCITN_CD

Page 43: Bdwf11 netezza james_zheng

© 2011 IBM Corporation43

管理 Netezza

没有dbspace/tablespace容量规划和配置

无需redo/physical/Logical log的规划和配置

无需表的page/block 规划和配置

无需表的extent规划和配置

无需临时空间Temp space分配和监控

无需dbspaces 级RAID级别选择

无需文件的逻辑卷logical volume创建

无需推荐OS kernel 的集成

无需操作系统OS建议补丁级别的维护

无需 JAD sessions 的 host/network/storage配置

不需要存储管理

不需要索引

indexes

和调优

tuning

不需要软件安装

Page 44: Bdwf11 netezza james_zheng

© 2011 IBM Corporation44

Netezza的技术方向选择正确吗? 历史证明:

October 2006 – NPS 3.1 系统软件 在 3代硬件上– 比大多数竞争性数据库快100x倍

August 2007 – NPS 4.0 系统软件 在3代硬件上– 比NPS 3.1 SW获得100%的性能提升. 没有HW变化.

May 2008 NPS 4.5 系统软件 在 3代硬件上– 比NPS 4.0 SW获得100%的性能提升. 没有HW变化.

August 2009 Netezza TwinFin 4代一体机 NPS 5.0 SW– 比NPS 4.5 SW和3代HW 获得2x到10x倍的性能提升.

October 2010 NPS 6.0 系统软件– 比NPS 5.0 SW获得100%的性能提升. 没有HW变化.

对于我们发布的每一代一体机,在同等硬件条件下仅通过软件更新,我们就证明了2x 到10x倍的性能提升!

没有其他RDBMS厂商显示出这种让同样的一组硬件在速度上不断提升的先例,我们

独一无二的做到了.

我们期望我们的性能提升按这种步伐持续下去…

Page 45: Bdwf11 netezza james_zheng

© 2011 IBM Corporation45

Gartner报告: 一体机(Appliance)是企业数据仓库的未来

到2015年,全球将有

至少50%的企业选择

一体机作为自己的数

据仓库解决方案

Gartner把一项新产品走向成熟

的生命周期分为“技术触发、期望

膨胀、理性回归、增长上升、高

原稳定”五个阶段。

Gartner 2010年7月的分析报告

认为:“一体机”已经进入“增长上

升期”,两年内将被各行业大规模

应用。

Page 46: Bdwf11 netezza james_zheng

© 2011 IBM Corporation46

内容提要

从数据获取价值

商业智能与云计算环境

数据仓库一体机解决方案 —— Netezza

关于BigData与数据仓库云的探讨

Page 47: Bdwf11 netezza james_zheng

© 2011 IBM Corporation47

数据仓库一体机的特点

集成度更高– 一个标准机箱 大限度完成特定任务

配置更合理、速度更快– 存储、控制器、I/O通道、内存、CPU、网络均衡设计

• 针对数据仓库访问 优设计

– 比传统类似平台高出一个数量级以上

整体能耗更低– 同等计算任务,能耗 低

系统更加稳定可靠– 消除各种单点故障环节– 统一个部件、器件的品质和标准

管理维护费用低– 数据仓库的常规管理全部集成– 大大简化物理设计环节

可规划和预见的系统扩容、升级路线图– 系统扩充、软件升级、旧设备回收

Page 48: Bdwf11 netezza james_zheng

© 2011 IBM Corporation48

云计算环境作为数据仓库平台考虑

互联网应用系统的构建– 客户群体不确定

• 从无到有、从少到多

– 系统规模不确定• 与业务发展关系密切

– 系统投资不固定• 与业务发展关系密切

– 业务应用有很清晰的并行分割特征• 互联网搜索• 电子商务

数据仓库系统的构建– 用户群体明确

• 管理层• 业务分析人员• 业务操作人员

– 数据仓库规模可估算• 与业务规模有联系但不是一一对应• 数据仓库有起始规模• 数据仓库与业务分析的需求有关• 数据仓库与业务系统的规模可控

– 数据仓库的系统投资与业务分析的

价值和回报相关• 与业务发展的规模只是有联系但非绑

– 商业智能应用属于整体应用• 并行分割特征有自身特点

– 与传统云计算模式不同

– SAAS模式构建数据仓库系统• 需要探讨的业务模式

云计算平台构建数据仓库 —— 需要深入研究!

Page 49: Bdwf11 netezza james_zheng

© 2011 IBM Corporation49

BigData与云环境数据仓库

BigData作为数据分析服务器底层技术的局限– 实现分布式并行数据库服务器要做的工作与BigData层面重叠

• 传统数据库厂商对BigData实现数据仓库不是很热心 – Why?• 数据库服务器需要实现数据查询和操作逻辑

– 这些逻辑的实现层面不能不考虑数据的分布– 这些逻辑的实现与现有BigData的实现层面相互重叠且无法相互替代

> 在BigData之上实现的“数据库”都难免瘸腿 – e.g. Hive> 数据库技术的趋势,更是逻辑下推 – e.g. IBM Netezza & Oracle Exadata

云环境中的数据仓库 – 动态伸缩的非共享并行数据库应是方向– 把BigData当一个大数据库文件并发使用或切成小块分割使用

• 均非上层数据库所需要– 小块分割浪费了功能、效率不高

– 数据库只需要简单高效的存储管理• 有限多节点 + 并行 + 容错

– IBM研究院的实验课题> 赵邑新博士:[email protected]

– 数据库要解决的问题是动态伸缩部署• 各并行处理节点的数据重分布

Page 50: Bdwf11 netezza james_zheng

© 2011 IBM Corporation50

云计算环境的未来发展的探讨

云计算环境中基本计算单元的分化– 当前的基本计算单元常常是普通PC服务器

• 小组大以及大划小的问题

– 如同多细胞生物体的进化,未来的云计算环境中可能出现“细胞分化”,从

而进化成高级生物:• 存储单元• 计算单元• 协调单元• 通信单元 ……

– 一体机以及专用设备在云环境中的角色• 一体机不再是云计算的对立面,而是云计算的一分子

公共云业务模式的探讨– 涉及底层的专门应用 – 对provision管理的挑战

• WebEx,展示互动

– 传统应用与数据仓库的SAAS模式• 业务发展的挑战

Page 51: Bdwf11 netezza james_zheng
Page 52: Bdwf11 netezza james_zheng