29
OLAP(on-line analytical processi ng ) 介介 介介介介介介 2001/11/05

OLAP( on-line analytical processing ) 介绍

Embed Size (px)

DESCRIPTION

OLAP( on-line analytical processing ) 介绍. 报告人:张忠平 2001/11/05. OLAP 介绍提纲. 一、发展背景 二、什么是 OLAP ? 三、相关基本概念 四、 OLAP 特性 五、 OLAP 多维数据结构 六、 OLAP 多维数据分析 七、 OLAP 分类 八、 OLAP 体系结构 九、 OLAP 评价准则 十、流行的 OLAP 工具 十一、 OLAP 发展 十二、 OLAP 展望. 一、发展背景. - PowerPoint PPT Presentation

Citation preview

Page 1: OLAP( on-line analytical processing  ) 介绍

OLAP(on-line analytical processing ) 介绍

• 报告人:张忠平• 2001/11/05

Page 2: OLAP( on-line analytical processing  ) 介绍

OLAP 介绍提纲• 一、发展背景• 二、什么是 OLAP ?• 三、相关基本概念• 四、 OLAP 特性• 五、 OLAP 多维数据结构• 六、 OLAP 多维数据分析• 七、 OLAP 分类• 八、 OLAP 体系结构• 九、 OLAP 评价准则• 十、流行的 OLAP 工具• 十一、 OLAP 发展• 十二、 OLAP 展望

Page 3: OLAP( on-line analytical processing  ) 介绍

一、发展背景• 60 年代,关系数据库之父 E.F.Codd 提出了关系模型,促进了联机

事务处理 (OLTP) 的发展 ( 数据以表格的形式而非文件方式存储 ) 。1993 年, E.F.Codd 提出了 OLAP 概念,认为 OLTP 已不能满足终端用户对数据库查询分析的需要, SQL 对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此, E.F.Codd 提出了多维数据库和多维分析的概念,即 OLAP 。

• OLTP 数据 OLAP 数据• 原始数据 导出数据• 细节性数据 综合性和提炼性数据• 当前值数据 历史数据• 可更新 不可更新,但周期性刷新• 一次处理的数据量小 一次处理的数据量大• 面向应用,事务驱动 面向分析,分析驱动• 面向操作人员,支持日常操作 面向决策人员,支持管理需要

Page 4: OLAP( on-line analytical processing  ) 介绍

二、什么是 OLAP ?• 定义 1 : OLAP( 联机分析处理 ) 是针对特定问题的联机

数据访问和分析。通过对信息 ( 维数据 ) 的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。

• 定义 2 : OLAP( 联机分析处理 ) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 (OLAP 委员会的定义 )

• OLAP 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此 OLAP也可以说是多维数据分析工具的集合。

Page 5: OLAP( on-line analytical processing  ) 介绍

三、相关基本概念• 1. 维:是人们观察数据的特定角度,是考虑问题时的一

类属性,属性集合构成一个维 ( 时间维、地理维等 ) 。• 2. 维的层次:人们观察数据的某个特定角度 ( 即某个维 )

还可以存在细节程度不同的各个描述方面 ( 时间维:日期、月份、季度、年 ) 。

• 3. 维的成员:维的一个取值。是数据项在某维中位置的描述。 (“ 某年某月某日”是在时间维上位置的描述 )

• 4. 多维数组:维和变量的组合表示。一个多维数组可以表示为: ( 维 1 ,维 2 ,…,维 n ,变量 ) 。 ( 时间,地区,产品,销售额 )

• 5. 数据单元 ( 单元格 ) :多维数组的取值。 (2000 年 1 月,上海,笔记本电脑, $100000)

Page 6: OLAP( on-line analytical processing  ) 介绍

四、 OLAP 特性

• (1) 快速性 : 用户对 OLAP的快速反应能力有很高的要求。系统应能在 5 秒内对用户的大部分分析要求做出反应。

• (2) 可分析性 :OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。

• (3) 多维性 : 多维性是 OLAP的关键属性。系统必须提供对数据的多维视图和分析 , 包括对层次维和多重层次维的完全支持。。

• (4) 信息性 : 不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。

Page 7: OLAP( on-line analytical processing  ) 介绍

五、 OLAP 多维数据结构

• 1. 超立方结构 (Hypercube) – 超立方结构指用三维或更多的维数来描述一个对象 ,每个维彼此垂直。数据的测量值发生在维的交叉点上 ,数据空间的各个部分都有相同的维属性。 ( 收缩超立方结构。这种结构的数据密度更大 ,数据的维数更少 ,并可加入额外的分析维 )。

• 2. 多立方结构 (Multicube)– 即将超立方结构变为子立方结构。面向某一特定应

用对维进行分割 , 它具有很强的灵活性 ,提高了数据 (特别是稀疏数据 )的分析效率。

Page 8: OLAP( on-line analytical processing  ) 介绍

六、 OLAP 多维数据分析• 1.切片和切块(Slice and Dice)

– 在多维数据结构中 , 按二维进行切片 , 按三维进行切块 ,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片 ,可得到各城市、各产品的销售情况。

• 2.钻取(Drill) – 钻取包含向下钻取 (Drill-down)和向上钻取 (Drill-up)/上卷 (Roll-up)操作, 钻取的深度与维所划分的层次相对应。

• 3.旋转(Rotate)/转轴(Pivot)– 通过旋转可以得到不同视角的数据。

Page 9: OLAP( on-line analytical processing  ) 介绍

OLAP 的分析方法 ( 一 )切片、切块

Page 10: OLAP( on-line analytical processing  ) 介绍

OLAP 的分析方法 ( 二 )钻取

按时间维向下钻取

按时间维向上钻取

60

Page 11: OLAP( on-line analytical processing  ) 介绍

OLAP 的分析方法 ( 三 )旋转

Page 12: OLAP( on-line analytical processing  ) 介绍

七、 OLAP 分类

按照存储方式

OLAP

MOLAP HOLAPROLAP

按照处理地点

Client OLAPServer OLAP

Page 13: OLAP( on-line analytical processing  ) 介绍

OLTP 、 ROLAP与MOLAP 模式

Page 14: OLAP( on-line analytical processing  ) 介绍

ROLAP 的星型模式 (Star Schema)

• 事实表:用来存储事实的度量值和各个维的码值。• 维 表:用来存放维的元数据(维的层次、成员类别等描述信息)。

Budget

Time_id

Sales Table

Discount%

Dollars

Units

"Fact Table"

Market_id

Product_id

Scenario

Product_id

Product Table

Size

Brand

Product_Desc

"Dimension Table"

Time_id

Year

Quarter

Period_Desc

Period Table

"Dimension Table"

Scenario Table

Actual

Profit

Scenario

"Dimension Table"

Market_id

Market Table

Region

District

Market_Desc

"Dimension Table"

Page 15: OLAP( on-line analytical processing  ) 介绍

MOLAP 的多维立方体 (Multicube)

Page 16: OLAP( on-line analytical processing  ) 介绍

数据组织形式– RDB数据组织 - MDDB数据组织 - 关系表中综合数据的存放

– 多维数据库中综合数据的存放

产品名称 地区 销售量冰箱 东北 50

冰箱 西北 60

冰箱 华北 100

彩电 东北 40

彩电 西北 70

彩电 华北 80

空调 东北 90

空调 西北 120

空调 华北 140

  东北

西北

华北

冰箱

50 60 100

彩电

40 70 80

空调

90 120 140

产品名称 地区 销售量冰箱 东北 50

冰箱 西北 60

冰箱 华北 100

冰箱 总和 210

彩电 东北 40

彩电 西北 70

彩电 华北 80

彩电 总和 190

空调 东北 90

空调 西北 120

空调 华北 140

空调 总和 350

总和 东北 180

总和 西北 250

总和 华北 320

总和 总和 750

  东北 西北 华北 总和冰箱 50 60 100 210彩电 40 70 80 190空调 90 120 140 350总和 180 250 320 750

Page 17: OLAP( on-line analytical processing  ) 介绍

ROLAP与MOLAP比较• ROLAP优势

– 没有大小限制– 现有的关系数据库的技术可以沿用 .

– 可以通过 SQL 实现详细数据与概要数据的存储

– 现有关系型数据库已经对 OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、 SQL 的 OLAP扩展(cube,rollup) 等大大提高 ROALP 的速度

• MOLAP优势– 性能好、响应速度快– 专为 OLAP 所设计– 支持高性能的决策支

持计算• 复杂的跨维计算• 多用户的读写操作• 行级的计算

Page 18: OLAP( on-line analytical processing  ) 介绍

ROLAP与MOLAP比较 (续 )

• ROLAP缺点– 一般比MDD响应速度慢– 不支持有关预计算的读写操作

– SQL无法完成部分计算• 无法完成多行的计算• 无法完成维之间的计

• MOLAP缺点– 增加系统复杂度,增加

系统培训与维护费用– 受操作系统平台中文件

大小的限制,难以达到 TB 级 (只能 10~20G)

– 需要进行预计算,可能导致数据爆炸

– 无法支持维的动态变化– 缺乏数据模型和数据访

问的标准

Page 19: OLAP( on-line analytical processing  ) 介绍

八、 OLAP 体系结构• ROLAP Architecture

• MOLAP Architecture

SQL

Result Set

Info.Request

Result Set

Database Server

R

DBMS

Front-end Tool

ROALP Architecture

ROLAP Server

MetadataRequest

Processing

SQL

Result Set

Info.Request

Result Set

Load

Database Server

RDBMS

Front-end Tool

MOALP Architecture

MOLAP Server

MetadataRequest

Processing

Page 20: OLAP( on-line analytical processing  ) 介绍

八、 HOLAP 体系结构 (续 )

• HOLAP Architecture

Result SetOR

SQL Query

SQL

Result Set

Info.Request

Result Set

Load

Database Server

RDBMS

Front-end Tool

Hybrid Architecture

MOLAP Server

Page 21: OLAP( on-line analytical processing  ) 介绍

九、 OLAP 评价准则• 准则 1 OLAP 模型必须提供多维概念模型• 准则 2 透明性准则• 准则 3 存取能力准则• 准则 4 稳定的报表性能• 准则 5 客户 /服务器体系结构• 准则 6 维的等同性准则• 准则 7 动态稀疏矩阵处理准则• 准则 8 多用户支持能力准则• 准则 9 非受限的跨维操作• 准则 10 直观的数据处理• 准则 11 灵活的报表生成• 准则 12 非受限的维与维的层次

Page 22: OLAP( on-line analytical processing  ) 介绍

十、流行的 OLAP 工具介绍• OLAP 产品• Hyperion Essbase• Oracle Express• IBM DB2 OLAP Server• Sybase Power dimension • Informix Metacube• Microsoft Plato• Brio• Cognos• Business Object• MicroStrategy

• OLAP 产品涉及的业务操作– 由外部或内部数据源批量装入数据– 由业务系统增量装入数据– 沿数据层次汇总数据– 对基于业务模型的新数据进行计算– 时间序列分析– 高复杂的查询– 沿数据层次细化分析– 随机查询– 多个联机会话 ( 多用户同时访问 )

Page 23: OLAP( on-line analytical processing  ) 介绍

流行的 OLAP 工具介绍 (续 )•Hyperion Essbase

• 以服务器为中心的分布式体系结构

• 有超过 100 个的应用程序• 有 300 多个用 Essbase 作为平台的开发商

• 具有几百个计算公式,支持多种计算

• 用户可以自己构件复杂的查询。• 快速的响应时间,支持多用户

同时读写• 有 30 多个前端工具可供选择• 支持多种财务标准• 能与 ERP 或其他数据源集成• 全球用户超过 1500家

• Oracle Express• Oracle DW 支持 GB~TB 数量级• 采用类似数组的结构,避免了连接操作,提高分析性能

• 提供一组存储过程语言来支持对数据的抽取

• 用户可通过 Web 和电子表格使用

• 灵活的数据组织方式,数据可以 存放在 Express Server 内,也可直接在 RDB 上使用

• 有内建的分析函数和 4GL 用户自己定制查询

• 全球超过 3000家

Page 24: OLAP( on-line analytical processing  ) 介绍

流行的 OLAP 工具介绍 (续 )• IBM DB2 OLAP Server

– 把 Hyperion Essbase 的 OLAP 引擎和 DB2 的关系数据库集成在一起。

– 与 Essbase API完全兼容– 数据用星型模型存放在关

系数据库 DB2 中• Informix Metacube

– 采用 metacube 技术,通过OLE 和 ODBC 对外开放,

– 采用中间表技术实现多维分析引擎,提高响应时间和分析能力

– 开放的体系结构可以方便地与其他数据库及前台工具进行集成

• Sybase Power dimension– 数据垂直分割(按“列”

存储)– 采用了突破性的数据存取

方法 ------bit-wise索引技术– 在数据压缩和并行处理方

面有多到之处– 提供有效的预连接( Pro-Ji

on)技术

Page 25: OLAP( on-line analytical processing  ) 介绍

十一、 OLAP 发展• 应用领域

– 市场和销售分析 (Marketing and Sales analysis)

– 电子商务分析 (Clickstream analysis)

– 基于历史数据的营销 (Database marketing)

– 预算 (Budgeting)

– 财务报告与整合 (Financial reporting and consolidation)

– 管理报告 (Management reporting)

– 利益率分析 (Profitability analysis)

– 质量分析 (Quality analysis)

• OLAP标准 APB-1(AQT-Analytical Query Time作为统计指标 )

Page 26: OLAP( on-line analytical processing  ) 介绍

• 从联机分析处理到联机分析挖掘 (OLAM/OLAP挖掘 )

– 将联机分析处理与数据挖掘以及在多维数据库中发现知识集成在一起。– 联机分析挖掘提供在不同的数据子集和不同的抽象层上进行数据挖掘

的工具 .

– 联机分析挖掘为用户选择所期望的数据挖掘功能动态修改挖掘任务提供了灵活性 。

– 超立方体计算与传统挖掘算法的结合• 先进行立方体计算,后进行数据挖掘• 先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘结果分析• 立方体计算与数据挖掘同时进行• 回溯特性

• OLAP 基于Web 的应用– 静态方法 静态 HTML 报表– 动态方法 通过 HTML 模板及元数据动态生成报表– 改进方法 使用 Java 或 ActiveX

十一、 OLAP 发展 (续 )

Page 27: OLAP( on-line analytical processing  ) 介绍

用户图形界面 API

数据库数据仓库

数据库

元数据

OLAM引擎

OLAP引擎

MDDB

数据方 API

数据库 API

基于约束的数据挖掘

数据清理

过滤

挖掘结果

数据集成

数据过滤数据集成

第一层数据存储

第二层多维数据库

第三层OLAP/OLAM

第四层用户界面

一个集成的 OLAM 和 OLAP 结构

Page 28: OLAP( on-line analytical processing  ) 介绍

OLAP 的 Web 表现方式• 静态方法

– 静态 HTML 报表• 动态方法

– 通过 HTML 模板及元数据动态生成报表

• 改进方法– 使用 Java 或 ActiveX

CGIAPI

HTMLJava ScripActiveX

客户浏览器

Web服务器应用

OLAP Server

基于Web 的 OLAP 结构

Database Server

Page 29: OLAP( on-line analytical processing  ) 介绍

十二、 OLAP 展望• 面向对象的联机分析处理

– O3LAP(Object-Oriented OLAP)• 对象关系的联机分析处理

– OROLAP (Object Relational OLAP)• 分布式联机分析处理

– DOLAP (Distributed OLAP)• 时态联机分析处理

– TOLAP (Temporal OLAP)