Download ppt - OLAP 的旋转功能

Transcript
Page 1: OLAP 的旋转功能

OLAP 的旋转功能平面数据的坐标轴转换。

12.78.5-4.38.9差量 %

-4432225402-299531102差量35000030000069000350000计划30667732540266005381102现有

其它汽车家具服装

销售量

1999

Page 2: OLAP 的旋转功能

12.7-44322350000306677所有其他8.525402300000325402汽车-4.3-29956900066005家具8.931102350000381102服装

差量 %差量计划现有销售量1999

Page 3: OLAP 的旋转功能

数 据 仓 库 设 计

Page 4: OLAP 的旋转功能

1.1 系统设计的差异操作型数据库 数据仓库

面向应用 面向分析确定的应用需求

应用需求的收集和分析在系统设计前期确定;一旦确定,一般不再改变。

不确定的分析需求数据分析需求的收集、分析和理解一般贯穿整个系统设计过程。

事务处理性能 数据的全局一致性数据来自于组织外部数据获取;存储数据;数据查询;数据更新;数据安全;数据有效。

数据来自于系统内部数据转换、重组、综合;数据分析效率、准确性。

Page 5: OLAP 的旋转功能

1.2 SDLC 与 CLDS SDLC—— 操作型环境中,业务过程和规则比较

规范和固定。系统设计人员能够清晰地了解应用的需求和数据流程,系统的设计一般采取系统生命周期法 (Systems Development Life Cycle) 。

CLDS—— 分析型环境中, DSS 分析对决策分析的需求不能预先作出规范说明,只能给设计人员一个抽象模糊的描述。设计人员必须在与用户不断的交流中,将系统需求逐步明确与完善。为了强调这种开发的不确定型,将此设计方法定名为 CLDS 方法(与 SDLC 相反)。

Page 6: OLAP 的旋转功能

收集应用需求

系统实施

系统测试

应用编程

构建数据库

应用 1 应用 B 应用 C

DB

分析应用需求

SDLC 方法

DSS 应用编程

DB DB外部数据

数据仓库建模

理解需求

数据获取与集成

系统测试

构建数据仓库DW

CLDS 方法

“ 数据驱动”

Page 7: OLAP 的旋转功能

1.3 “ 数据驱动”的系统设计思路

识别出当前系统设计与已做工作的共同性; ——出发点

从已有数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库中的主题;

利用数据模型有效识别原有数据库中的数据和数据仓库中主题的数据的共同性。 ——中心

Page 8: OLAP 的旋转功能

数据驱动系统设计方法的中心——数据模型

操作型数据库设计 数据仓库设计

数据库数据仓库

操作型数据库应用开发与设计

DSS 应用开发与设计

数据模型

Page 9: OLAP 的旋转功能

2 数据仓库设计的三级数据模型

概念模型现实世界到机器世界的中间层次——信息世界E-R法( 实体 - 联系法 )

逻辑模型关系模型

物理模型逻辑模型在数据仓库中的实现。物理存取方式、数据存储结构、数据存放位置以及存储分配等。

数据模型——对现实世界进行抽象的工具。

Page 10: OLAP 的旋转功能

3 提高数据仓库的性能

粒度划分——细节级、轻度综合级、高度综合级

数据分割——分割的标准:时间、业务领域、地理分布

物理设计中的其他问题—表合并—引入冗余—建立广义索引—建立数据序列—表的物理分割—生成导出数据

提高系统的物理 I/O 性能

Page 11: OLAP 的旋转功能

粒度划分 粒度划分的决定性因素是表的总行数

数据存取是通过存取索引来实现的,索引是对应表的行来组织的。因此与表的数据量无关。

估算数据仓库中数据的行数对每一已知表 统计一年内数据行数的最大行数和最小行数; 统计五年内数据行数的最大行数和最小行数。

根据估算出的数据行,决定是否要划分粒度一年 105 行左右 细节级、综合级一年 106 行以上 细节级、轻度综合级、高度综合级五年 106 行左右 细节级、综合级五年 107 行以上 细节级、轻度综合级、高度综合级

Page 12: OLAP 的旋转功能

表合并

当查询涉及到分散在几个物理块的多个表的数据,表的存取和连接操作会影响系统的性能。

为了节省 I/O 开销,可以把这些表的数据混合存放在一起。

表的合并只是物理上的合并,并非逻辑上的合并

Page 13: OLAP 的旋转功能

ENCS3

MABS2

CSAS1

系别D

姓名N

学号S#

学生表 C

CC2S3

BC1S3

BC4S2

BC1S2

AC4S1

BC3S1

AC1S1

成绩G#

课程号C#

学号S#

学生选课表 SC

S1C4AS1A SAC3BS1C1A

S3C

S2B S2C1B

S3C1BS2C4B S3C2C

物理存储块

Page 14: OLAP 的旋转功能

处理最值问题的方法——广义索引。这个月销售最差的十种商品是什么?

从操作型数据库抽取数据并装载到数据仓库的同时,根据用户需要建立广义索引。

引入冗余

建立广义索引

一些表的某些属性经常会被使用到,且不常更新,就可以将这些属性复制到多个表中,从而减少处理时被存取的表的个数。

商品固定信息表(商品号、商品名、类别… ) 商品销售表(商品名、销售量、销售日期… )商品销售表(商品名、商品名、类别、销售量、销售日期… )

Page 15: OLAP 的旋转功能

数据序列

1

3

5

6

4

7

2

物理块1

物理块2

物理块3

1

2

3

4

5

6

7物理块1 物

理块2

Page 16: OLAP 的旋转功能

表的物理分割 “ 数据分割”——表的逻辑分割。

将一个表按一定的分割标准分成两个或多个表。 表的物理分割依据数据的存取频率和数据的稳定性来进行;将一张表按照各属性被存取的频率分成两个或多个表。

事先在原始数据的基础上进行总结或计算,生成导出数据。——减少了 I/O 的次数,免去计算和汇总的步骤;——建立了公共数据源,避免了不同用户进行重复计算可能产生的偏差。

生成导出数据

Page 17: OLAP 的旋转功能

4 数据仓库设计步骤 数据驱动的系统设计方法 设计步骤

—概念模型设计 —技术准备工作 —逻辑模型设计 —物理模型设计 —数据仓库生成 —数据仓库运行与维护

实例:商店的数据仓库设计

Page 18: OLAP 的旋转功能

2 技术环境准备

2 确定主题域

1 技术评估

1 界定系统边界

概念模型设计

技术准备工作 2 数据分割策略

4 记录系统定义

1 粒度层次划分

3 关系模式定义

1 确定存储结构

4 确定存储分配

2 确定索引结构

3 确定存放位置

逻辑模型设计 物理模型设计

1

2

数据仓库运行与维护

分析主题域,针对每一个当前实施的主题域

Page 19: OLAP 的旋转功能

数据类型分析

数据仓库设计步骤

源系统分析

程序说明

技术评估

粒度分析

编程

数据装入

数据仓库设计 运行与维护

技术环境准备

1 85

43

2

7

6 11

109

反 馈

循 环

主题域分析

Page 20: OLAP 的旋转功能

IBM IBM

Visual Warehouse(VW)Essbase/DB2 OLAP Server 5.0 及管理器IBM DB2 UDBHyperion Wired for OLAP/Business Objects

InformixInformix Formation 和 Informix DataStageInformix Red Brick Warehouse 数据库Informix MetaCube OlAP 服务器Informix MetaCube Exploer/Web Explorer

Page 21: OLAP 的旋转功能

Oracal

Oracal8i 关系型数据库引擎 Oracle Warehouse BuilderingETL 工具 Express多维数据库引擎 Discover 关系 OLAP 查询工具 Oracle 数据挖掘套件

Page 22: OLAP 的旋转功能

其他厂商 Microsoft——SQL Server

Plato 和 Data Transformation Services Sybase SAS NCR

Page 23: OLAP 的旋转功能

4.1.1 界定系统边界——需求分析 要做的决策类型由哪些?

决策者感兴趣的是什么问题?

这些问题需要些什么样的信息?

要得到这些信息需要包含原有数据库系统的哪些部分的数据?

商品的营销策略

顾客的购买趋势、商品供应市场的变化趋势、分析供应商信用等级

商品销售数据、商品采购数据、商品库存数据、顾客信息、供应商信息

销售子系统、采购子系统、库存子系统

Page 24: OLAP 的旋转功能

4.1.2 确定主题域 确定系统所包含的主题域

描述每个主题域的内容—主题域之间的关系

—主题域的公共码键—充分代表主题的属性组

商品、供应商、顾客

商品供应商

顾客

商品供应关系商品销售关系

E-R图表示

主题的描述

Page 25: OLAP 的旋转功能

4.2.1 技术评估: 确定数据仓库的各项性能指标

—管理大数据量数据的能力—进行灵活数据存取的能力—根据数据模型重组数据的能力—透明的数据发送和接受能力—周期性成批装载数据的能力—可设定完成时间的作业管理能力

Page 26: OLAP 的旋转功能

4.2.2 技术环境准备 考虑相关的问题:

—预期在数据仓库上分析处理的数据量有多大?—如何减少或减轻竞争性存取程序的冲突?—数据仓库的数据量有多大?—进出数据仓库的数据通信量有多大? ……

确定软硬件配置:—直接存取设备 (DASD)—网络—管理直接存取设备的操作系统—进出数据仓库的界面(数据查询和分析工具)—管理数据仓库的软件

Page 27: OLAP 的旋转功能

4.3.1 粒度层次划分 确定采用单一粒度还是多重粒度,以及粒度划

分的层次。

商场数据仓库的粒度划分—“商品”主题的数据量庞大,采用多重粒度—商品销售记录的数据量最大,定义商品销售数据的层次要更丰富。 ※周统计销售数据 ※月统计销售数据 ※季统计销售数据等等

Page 28: OLAP 的旋转功能

4.3.2 数据分割策略

数据量 是否需要数据分割,如何分割

数据分析处理的要求 选择数据分割的标准

简单易行 数据分割要易于理解,易于实施

粒度划分策略 数据分割的标准与粒度划分层次相适应

选择数据划分策略,需考虑的因素有:

Page 29: OLAP 的旋转功能

4.3.3 关系模式定义

表 维商品固有信息 商品表 商品号,商品名,类别,颜色…… 细节级

商品采购信息

采购表 1供应商号,供应价,供应日期,供应量…

… 细节级

采购表 2 商品号、时间段 1 ,采购总量……时间段不等

的综合表…… ……

采购表 n 商品号、时间段 n ,采购总量……

商品销售信息

销售表 1商品号,顾客号,售价,销售日期,销售

量…… 细节级

销售表 2 商品号、时间段 1 ,销售总量……时间段不等

的综合表…… ……

销售表 n 商品号、时间段 n ,销售总量……

商品库存信息

库存表 1 商品号,库房号,库存量,日期……细节级

库存表 2 商品号,库房号,库存量,星期……样本数据粒

度形式……. …….

库存表 n 商品号,库房号,库存量,年……

其他导出数据 …其他… …其他…

Page 30: OLAP 的旋转功能

4.3.4 定义记录系统 数据来源于操作型数据库和外部系统

—系统的数据都是面向应用的,不能完整描述企业中的主题域;—多个数据源的数据存在许多不一致。

从数据仓库的概念模型出发,结合主题的多个表的关系模式,定义记录系统—选择最完整、最及时、最准确、最接近外部实体源的数据作为记录系统;—这些数据所在的表的关系模式最接近于构成主体的多个表的关系模式。

Page 31: OLAP 的旋转功能

商场面向应用的数据库 采购子系统

—订单 (订单号,供应商号,总金额,日期 )

—订单细则 (订单号,商品号,类别,单价,数量 )

—供应商 (供应商号,供应商名,地址,电话 )

销售子系统—销售 ( 员工号,顾客号,商品号,数量,单价,日期 )

—顾客 (顾客号,姓名,性别,年龄,文化程度,地址,电话 )

库存子系统—领料单 ( 领料单号,领料人,商品号,数量,日期 )

— 进料单 ( 进料单号,进料人,收料人,数量,日期 )

— 库存 (商品号,库房号,库存量,日期 )

— 库房 ( 库房号,仓库管理员,地点,库存商品描述 )

人事管理子系统

Page 32: OLAP 的旋转功能

属性名 数据源系统 源表名 源属性名商品号 库存子系统 商品 商品号商品名 库存子系统 商品 商品名类别 库存子系统 商品 类别

供应商号 采购子系统 订单 供应商号供应日期 采购子系统 订单 日期

供应价 采购子系统 订单细则 单价顾客号 销售子系统 顾客 顾客号

销售日期 销售子系统 销售 日期单价 销售子系统 销售 单价

销售量 销售子系统 销售 数量库存量 库存子系统 库存 库存量日期 库存子系统 库存 日期

库房号 库存子系统 库房 库房号

商品主题的记录系统定义

Page 33: OLAP 的旋转功能

4.4 物理模型设计

全面了解所选用的数据库管理系统 (特别是存储结构和存储方法 ) ;

了解数据环境、数据的使用频度、使用方式、数据规模以及相应时间要求等;

了解外部存储设备的特性 ( 分块原则,块大小的规定,设备的 I/O特性等)

确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:

Page 34: OLAP 的旋转功能

物理模型设计 确定数据存储结构

存取时间、存取空间利用率和维护代价 确定索引策略

索引结构可以提高数据存储的效率,对各个数据存储建立专用的、复杂的索引

确定数据的存放位置按数据的重要程度、使用频率和对响应时间的要求进行分类,分别存储在不同的存储设备中

确定存储分配块的尺寸、缓冲区的大小和个数等

Page 35: OLAP 的旋转功能

4.5.1 设计接口

从面向应用和操作的环境生成完整的数据 数据的基于时间的转换 数据的凝聚 对现有记录系统的有效扫描,以便以后进行追加

数据库

数据库

数据库数据仓库

Page 36: OLAP 的旋转功能

接口编程的注意点保持高效性要保存完整的文档记录要灵活,易于改动要能完整、准确地完成从操作型环境到

数据仓库环境的数据的抽取、转换与集成

Page 37: OLAP 的旋转功能

4.5.2 数据装入

确定数据装入的次序; 清除无效或错误的数据; 数据“老化”; 数据粒度管理; 数据刷新等

运行接口程序,将数据装入到数据仓库

Page 38: OLAP 的旋转功能

4.6.1 建立 DSS 应用

DSS 应用开发是从数据出发的; DSS 应用的需求不能在开发初期明确了

解; DSS 应用开发是一个不断循环的过程,

是启发式的开发。

DSS 应用不同于联机事务处理应用开发的显著特点:

Page 39: OLAP 的旋转功能

DSS 应用的种类例行分析处理——重复进行的分析处理。属于部门级的应用,如部门统计分析,报表分析等等;

启发式分析处理——企业经营者受到某种信息启发而进行的一些即席的分析处理。属于个人级的分析应用,随机性很大。

Page 40: OLAP 的旋转功能

DSS 应用开发大致步骤

确定所需数据

编程抽取数据

分析数据

合并数据

结果满足分析要求否?

回答问题

例行化?

循 环N

Y

多个抽取源

Page 41: OLAP 的旋转功能

4.6.2 维护数据仓库

管理日常数据装入,包括刷新数据仓库的当前详细数据,将过时的数据转化成历史数据,清除不再使用的数据,管理源数据等。

如何利用接口定期从操作型环境想数据仓库追加数据,确定数据仓库的数据刷新频率等。

Page 42: OLAP 的旋转功能

商场的数据仓库设计 了解商场经营状况,跟踪市场趋势,制

定商品采购和销售策略。

各部门已建立一些分散的数据库:人事、采购、库存、销售数据库。

Page 43: OLAP 的旋转功能

2.1 E-R 法 E-R图描述的是实体以及实体之间的关系。长方形表示实体 ( 主题、主题名 )椭圆形表示实体 ( 主题 ) 的属性菱形表示主题之间的联系 ( 联系名 )

主题、属性、联系均用无向边连接

商品库存信息

商品采购信息

商品固有信息

商品销售信息

日期商品号 商品

商品

供应商

供应

Page 44: OLAP 的旋转功能

2.2 关系模型 元组:表中的一行称为元组

属性:表中的一列,给每一列取一个名称即属性名

主码:表中的某个属性组,他们的值唯一标识一个元组

域:属性的取值范围 分量:元组中的一个属

性组 关系模式:用关系名 (属

性名 ) 表示

姓名 顾客号 地址张平 C960100 北京王珂 C960101 上海刘辉 C960102 天津李强 C960103 成都 . . .

顾客信息表

Page 45: OLAP 的旋转功能

E-R 图

供应商固有信息

供应商品信息

日期 供应商号供应商 日期

顾客购物信息

顾客固有信息

顾客号 顾客

商品库存信息

商品采购信息

商品固有信息

商品销售信息

日期商品号 商品

Page 46: OLAP 的旋转功能

主题的描述主题名 公共码键 属性组

商品

商品号

商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应家,供应日

期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,

销售量等商品库存信息:商品号,库房号,库存量,日期等

供应商

供应商号

供应商固有信息:供应商号,供应商名,抵制,电话,供应商类型等

供应商品信息:供应商号,商品号,供应家,供应日期,供应量等

顾客

顾客号

顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等

顾客购物信息:顾客号,商品号,售价,购买日期,购买量等


Recommended