基于 CWM 的数据仓库体系结构设计
我的工作
提出了一个基于 CWM 的数据仓库体系结构
基于该体系结构,参与设计和实现了一个电信综合业务信息服务平台
提纲
背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍 基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计
背景介绍
数据仓库的应用越来越广泛
不同数据仓库工具之间无法进行数据交换
企业的应用受到工具的限制
利用元数据可以实现数据交换
提纲
背景介绍
数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍
基于 CWM 的数据仓库体系结构设计
电信综合业务信息服务平台设计
数据仓库理论
数据仓库的定义
数据仓库的建设
数据仓库的应用
国内数据仓库建设的问题
元数据
定义 描述数据的数据
研究元数据的原因 管理、使用数据的需求 系统分布和互通的要求 元数据重用、共享的要求
元数据的建模和标准化
建模的两大方向 元数据参考模型 元数据模型
标准化 OMG
MDC
提纲
背景介绍 数据仓库、元数据理论介绍
CWM 、 MOF 、 UML 、 XMI 规范介绍
基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计
元数据的层次
Student (“张东”,“男”,…)Student (“李芳”,“女”,…)……
Record (“ Student” ,Field (“ name” , String )
,(Field (“ sex” , String )…
)
MetaClass (“ Record” ,[MetaAttr( (“ name” ) ,String),MetaAttr((“fields”),list<Field>)]MetaClass (“ Field” ,…)
通用的元元模型
信息,数据( M0 )
模型( M1 )
元模型( M2 )
元元模型( M3 )
OMG 规范和元数据层次的关系
元数据层次 MOF 术语 示例
M3 元元模型 MOF 模型
M2 元模型,元元数据
UML 元模型,CWM 元模型
M1 模型,元数据
UML 模型,CWM 模型
M0 对象,数据 数据仓库数据
CWM 和相关规范的关系
CWM 和 MOF 的关系 CWM 和 UML 的关系
直接继承了 UML 核心元模型 使用 UML 图形标记 使用 UML 中的 OCL (对象约束语言)
CWM 和 XMI 的关系
CWM 的组成
CWM 元模型 基础包 资源包 分析包 管理包
CWM DTD 和 CWM XML CWM IDL
提纲
背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍
基于 CWM 的数据仓库体系结构设计
电信综合业务信息服务平台设计
OLTP系统
遗留系统
办公系统
外部数据
DW管理系统
抽 取 清 洁 转 换 装 载
数据模型
本地元数据库
本地元数据库
元数据交换
数据集市
中央元数据库
OLAP工具
挖掘工具
报表工具
中央数据仓库
O D S
基于 CWM 的数据仓库体系结构
数据源
OLTP 数据库
遗留数据
内部办公系统数据
外部数据
数据源
多种类型:关系型、多维、 记录、 XML
以及其它一些工具类型
关系型:模式,物理表, 视图,字段,索引,触发器,外关键字 ,主关键字 ,数据类型,字段值,数据记录,记录的集合
Relational 元模型
Col umn
SQLQuery
Col umnSet
SQLDataType
Tabl e
Vi ewBaseTabl e
Catal og
Procedure
I ndex
Tri gger
Package
Relational 元模型(续 1 )
Attri buteLi nkI nstanceExtent
RowSet
Col umnSet
Obj ect DataVal ue
Col umnVal ueRow Attri bute
Relational 元模型(续 2 )
关系型数据源的主要接口
BaseTable :查询和修改表的属性、触发器和结构
Catalog :查询和修改包含的元素 Column :查询和设置属性 Row :查询和修改一条记录的内容 RowSet :查询和修改包含的记录
ETL
读取数据
清洁数据
转换数据
装载数据
ETL 组件的接口
黑盒变换:Transformation , DataObjectSet , TransformationUse
白盒变换:FeatureMap , ClassifierMap , ClassifierFeatureMap , TransformationMap
变换的执行顺序控制:TransformationTask , TransformationStep , TransformationActivity , StepPrecedence , PrecedenceConstraint
中央数据仓库
数据粒度最细且多层次 数据是历史的 数据是时间相关的 大数据量 数据是整合的 通用的、全局的
操作数据存储 ODS
操作型系统
O D S
1/2 1/2
企 业数据仓库
数据集市
企 业数 据仓 库
最细粒度
数据集市
部门 2
粒度 2
数据集市
部门 1
粒度 1
部门 3
粒度 3
外 部数据源
数据集市
数据集市的特点
面向部门应用
规模小,投资少
使用方便且成本低
元数据库
类型: 中央元数据库 本地元数据库
内容: 抽取过程:任务、执行顺序、映射关系、转换规则 描述数据 :方位图、数据之间的商业关系、商业规
则、数据的改变 数据仓库管理:安全性、运行状态、抽取过程的调
度、 I/O 对象及其关系
数据仓库管理
访问控制和安全性管理 数据增长管理 抽取过程的管理 性能管理 故障恢复 扩充和演变管理
数据仓库管理接口
抽取过程的调度( WarehouseProcess ,WarehouseEvent , InternalEvent , ScheduleEvent , ExternalEvent )
抽取过程的执行( TransformationExecution , StepExecution , ActivityExecution )
数据元素的变化( Measurement , ChangeRequest )
OLAP 组件接口
立方体的定义:Cube , CubeDimAssoc , CubeRegion , Dimension , Hierarchy , Level , Mearsure , LevelBasedHierarchy , HierarchyLevelAsso , ValueBasedHierarchy , MemberSelection , MemberSelGrp ,
立方体到物理数据源的映射StructureMap , LevelBasedHierarchy , ValueBasedHierarchy
数据挖掘组件的主要类及接口
MiningModel :模型属性和模型的输入 MiningSettings :对象属性,输入参数的说明 ApplicationInputSpecification , ApplicationAttribut
e :使用模型时的参数 MiningModelResult :挖掘的结果 SupervisedMiningModel: 描述预言性算法产生的模
型 StatisticsSettings, AssociationRulesSettings, Clusterin
gSettings, ClassificationSettings, RegressionSettings :对应模型的设置
基于 CWM 的数据仓库体系结构的特点及优点
统一的数据集市和数据仓库 中央元数据库驱动机制 灵活高效的数据交换方式 易于升级 高度的可集成性 高度的可扩展性
基于 CORBA 的企业数据仓库扩展结构
对 象 服 务
企业数据仓库 平台
C W M ( IDL)
通用数据仓库 工具
C W M ( IDL)
对象请求代理( ORB )
提纲
背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍 基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计
系统体系结构设计
管 理 系 统
抽 取 清 洁 转 换 装 载
数 据 建 模
元数据交换
数据联机分析展示
元数据库
面向主题的企业数据仓库
省分公司上报数据
计费结算数据
WEB服务器
客户端
系统部署图
WEB浏览
自动邮件
工具客户端
OLTP
服务器
数据仓库
服务器
OLAP
服务器
W W W
服务器
致谢