PowerPoint 演示文稿 - EOLfree.eol.cn/edu_net/edudown/2017yyfw/txf.pdf ·...

Preview:

Citation preview

教育数据治理与价值发现

2017+

唐雪飞成都康赛信息技术有限公司

问题TOP1:如何将数据用于不同领域进行有效决策

问题TOP2:数据质量较差

60%

问题TOP3:需要新的或更先进的数据分析技术

学校数据分析和使用过程中问题

40%

39%数据来源:毕马威

问题TOP1:如何将数据用于不同领域进行有效决策

• 学校运行状态没有及时的数据反映

• 教学、科研、学生管理、后勤服务支撑等运行状况如何?

• 缺乏全域概览式的基于实时数据的高校日常运行监控平台。

• 数据分析缺乏业务靶向性

• It 公司不懂业务;

• 数据分析要面向教学、学生工作等核心业务,具有靶向性。

• 缺乏直观理解数据的方式,难以释放数据的价值

• 不同领域对数据需求非常灵活,要求敏捷的数据可视化分析;

• 按照项目定制的数据分析缺乏灵活性,学校要掌握数据分析辅助决策的能力,挑战比较大。

问题TOP2:数据质量较差

• 数据不够完备

• 数据到用的时候才知道比较少、比较差,只有主数据,没有业务数据

• 脏数据不断产生

• 数据中心做了很多年数据清洗,来“优化”数据,以为整合清洗一次就一劳永逸。源头上的数据质量并没有得到提升,只管理、不治理,积弊沉重

• 数据质量改善没有方向

• 总是被用户、领导发现数据不准确、缺数据等数据质量问题,缺乏对数据质量现状的整体把握,更无法主动、持续改善数据质量

全量数据中心数据治理的目的是发现价值

高质量数据支持高价值

新的思路:为价值发现而治理

数据整合

数据关系

数据质量

DCI数据整合与清洗中间

“开阳星”元数据管理

“天权星”数据标准管理

“玉衡星”

EDQAF数据质量

管理系统

“天璇星”DRM数据关系管

理系统

学校数据治理活动域、输出与工具链

数据可视化

“瑶光星”EBI数据可视化系统

数据发现

“天玑星”Eureta数据发现系统

“开阳星”全量数据开放平台

元数据 关系数据 高质量数据 价值数据

学校其他业务活动域(人事、教务、科研、学生管理等)

辅助决策,业务优化

数据来源

数据整合

数据关系

数据质量

数据可视化

数据发现

元数据 关系数据 高质量数据 价值数据

数据大集中

数据标准

元数据

智能数据抽取

全量数据标准管理平台数据标准构建途径:1、简单确认法

2、uc矩阵法3、信息资源规划法

元数据:描述全量数据库业务表和业务字段的信息,是构建全量数据库的基础,是数据整合活动域的重要输出,也是数据质量管理等后续活动的必要内容。

全量元数据管理

强大的康赛企业级数据清洗与整合平台Comsys Data Clean Integrator面向业务的数据整合平台

执行引擎集群

分布式热插拔动态部署基于性能的智能负载均衡全自动数据整合任务执行

实时在线监控秒级及字段级的细粒度在线配置的模式化监控

基于消息模式实时推送结果

所见即所得,无需编程200多个数据清洗与整合组件

SSL数据安全传输

图形化设计

多用户作业流程管理智能任务调度

数据整合管理

高性能的数据整合方案

01单向整合

即将源业务数据通过数据清洗转换整合到

目标库。

A B

02双向整合

对互相有业务数据依赖的异构系统,打通数据壁垒。

A B

03点对点整合

将双向的整合贯穿多个业务系统

A B

C

04数据分发

即将规范的业务数据下发给各个业务系统,实现对业务数据同步的更新。

A

BC

05集中整合

即数据上报,通常都是将清洗、转换成固定的格式后向数据中心上报。

A

BC

06多级上报、下发

按照以上5个方面实现业务系统间的数据协同,打通数据的上行和下发,数据具备横向、纵向实时交换,即解决了数据孤岛。

数据整合

数据关系

数据质量

数据可视化

数据发现

元数据 关系数据 高质量数据 价值数据

全量数据中心的四层架构

原始数据层

主题数据层

分析数据层

应用数据层

可视化清洗与转换

在线建模、分析处理

API化、服务化

全量数据关系管理

康赛DRM 搜索 数据图谱

数据项

新建 张立

数据集 属性 系统 业务术语 数据质量 数据治理参与人

数据图谱

图谱类别 布局 叠加信息 筛选

系统血统 左-右 数据质量

数据图谱

全量数据关系管理血缘关系

学生选课数据表

数据表

视图

学生选课数据表

分析模型

相关人

业务活动

数据关系血缘

数据预览

概述

添加项目

显示

数据表

视图

业务领域

相关人

分析模型

数据整合

数据关系

数据质量

数据可视化

数据发现

元数据 关系数据 高质量数据 价值数据

规则描述语言RDL柔性配置检测规则

数据质量实时监控 自动生成数据质量报告

脏数据管理精准定位每一条脏数据

EDQAF评估框架E大夫数据质量评估框架

数据质量Q指数量化评价数据质量,变化趋势跟踪

EDQAF数据质量管理闭环测量-监控-追踪-清洗-提升

人事 教学 科研 学工 资产

数据质量监控快速评估工具

数据源管理

数据质量报表

数据质量测量执行引擎

数据质量测量结果数据库

质量问题追踪管理

脏数据

质量责任人 信息中心 数据质量分析员

数据层

业务层

应用层

用户层

数据质量监控作业管理

院校领导

EDQAF 数据质量元规则库

业务规则库

玉衡DQAS全量数据质量监控

多引擎运行检测规则

引擎多线程负载可以正常使用运行,目前单引擎最大负载数为5个;

多引擎调度正常,目前采取空闲调度法。

单引擎多负载性能情况:

单引擎满负载下,快速评估性能为原来的3.37倍,性能提升237%;

单引擎满负载下,数据规则检测性能为原来的3.03倍,性能提升203%。

评估大数据质量的挑战-海量数据检测

大数据质量检测架构

数据准备

关系性数据库

Nosql数据库

ETL

Hbase

Hive

sqoop

Dci

数据质量系统

大数据质量检测对比测试结果

分布存储,分布计算数据节点(5-100)越多性能越好

数据整合

数据关系

数据质量

数据可视化

数据发现

元数据 关系数据 高质量数据 价值数据

可视化交互操作告别数据深度挖掘“黑暗”命令行时代

智慧教育数据深度挖掘主题模版库利用模版快速进行数据的深度分析发现新知

内嵌众多数据挖掘算法聚类/分类/Logistic/k-means/…

挖掘学习过程可视化交互式高效模型优化

人人都可以使用不需要算法编程,GUI操作即可完成建模

Eureta全量数据发现系统

学生综合预警之挂科预测

•目的预测学生本学期课程的挂科概率,辅助老师了解学生的学习情况,有效帮助

学生度过学习困境,提高学习成绩。

•数据维度历史课程成绩

课程上课出勤率

图书借阅次数

一卡通早餐次数

一卡通消费金额

上网情况分析

(网络流量,游戏时间,网络社交时间,上网时间段,上网位置等)

数据处理流程

日志采集网络设备

涉及数据表

序号

表名称 说明 重要字段

1 XSJBSJZLB 学生基本信息表

学号,姓名

2 XSKQXXB 学生考勤表 学号,课程号,学年,学期,出勤状态

3 YKT_JYJLJKXX 一卡通消费 学号,时间,消费金额

4 SWPU_CIRCULATE 图书借阅数据 读者条码,借阅时间,文献条码

5 SWPU_READER 图书读者信息 学号,读者条码

6 CJZLB 历史考试成绩表

学号,课程号,学年,学期,成绩

7 XKSJLB 学生选课表 学号,课程号,学年,学期,课程属性

8 KCSJLB 课程数据表 课程号,课程名称,学分,总课时,开设状态网络流量,游戏时间,网络社交时间,上

网时间段,上网位置数据待集成

预警平台依赖算法

• 避免建预测模型,模型容易失效,新加数据后需要修改模型。逆向思维,寻找最相似的学生,成绩也最相似!

• 主算法模型:协同过滤算法:协同过滤算法是根据目标元数据在海量数据库里面去匹配最优解

• 挂科预警就是将指定学生与数据库中某学生的历史数据匹配,找出匹配度最高的相似学生,该相似学生成绩则最有可能成为该生的最终成绩

数据整合

数据关系

数据关系

数据可视化

数据发现

元数据 关系数据 高质量数据 价值数据

150+种动态图表组件150+种图表组件

全景数据大屏高校业务数据大屏

渲染时数据权限管理贴合中国高校组织架构及数据权限管理模式

500+主题分析模型13大主题,全方位覆盖高校业务

全景数据大屏——迎新数据看板

全景数据大屏——教学活动透视

数据治理最佳实践:三个一工程

一个组织架构

一组管理规范

一套治理工具

数据治理最佳实践:数据治理组织架构

全量

数据关系管理

全量信息架构

数据标准管

数据质量

数据

整合

CDO、信息中心主任、校领导

数据治理办公室(信息化办公室)

数据治理工作组组长

校级数据责任人(可选)

部门数据责任人

数据提供者IT工程师

感 谢 聆 听

2 0 1 7

Recommended