32
智智智智智智 智智智智智智 (Intelligent (Intelligent Data Data Analysis,IDA) Analysis,IDA) Josipa Kern, PhD Andrija Stampar 公公公公公公 公公公公公公公公公 公公公公 公公公公

智能数据分析 (Intelligent Data Analysis,IDA)

Embed Size (px)

DESCRIPTION

智能数据分析 (Intelligent Data Analysis,IDA). Josipa Kern, PhD Andrija Stampar 公共卫生学院 萨格勒布大学医学院 萨格勒布,克罗地亚. 对智能数据分析的兴趣和激情. 决策的过程就是寻求信息和知识的过程 数据处理可以提供这些 问题的多维度在于寻找合适的解决方案和进行深入的数据处理和分析. 学习目标. 理解 IDA 的概念 浏览相关的网页和文献 接触一些 IDA 的工具 学习如何使用 IDA 工具和验证 IDA 的结果. 绩效目标. 识别需要使用 IDA 来解决的问题 准备数据并进行分析 - PowerPoint PPT Presentation

Citation preview

Page 1: 智能数据分析 (Intelligent Data Analysis,IDA)

智能数据分析智能数据分析(Intelligent (Intelligent

Data Data Analysis,IDA)Analysis,IDA)

Josipa Kern, PhDAndrija Stampar 公共卫生学

院萨格勒布大学医学院萨格勒布,克罗地亚

Page 2: 智能数据分析 (Intelligent Data Analysis,IDA)

对智能数据分析的兴趣和激情对智能数据分析的兴趣和激情

决策的过程就是寻求信息和知识的决策的过程就是寻求信息和知识的过程过程

数据处理可以提供这些数据处理可以提供这些 问题的多维度在于寻找合适的解决问题的多维度在于寻找合适的解决

方案和进行深入的数据处理和分析方案和进行深入的数据处理和分析

Page 3: 智能数据分析 (Intelligent Data Analysis,IDA)

学习目标学习目标

理解理解 IDAIDA 的概念的概念

浏览相关的网页和文献浏览相关的网页和文献

接触一些接触一些 IDAIDA 的工具的工具

学习如何使用学习如何使用 IDAIDA 工具和验证工具和验证 IDAIDA 的结果的结果

Page 4: 智能数据分析 (Intelligent Data Analysis,IDA)

识别需要使用识别需要使用 IDAIDA 来解决的问题来解决的问题

准备数据并进行分析准备数据并进行分析

验证并解释验证并解释 IDAIDA 的结果 的结果

绩效目标绩效目标

Page 5: 智能数据分析 (Intelligent Data Analysis,IDA)

…… 与有效的数据分析相关的多学科研究与有效的数据分析相关的多学科研究

…… 用来从大量的联机数据中提取有用信用来从大量的联机数据中提取有用信息;从固有数据库中提取需要的知识和息;从固有数据库中提取需要的知识和感兴趣的模型。 感兴趣的模型。

IDAIDA 就是就是……

Page 6: 智能数据分析 (Intelligent Data Analysis,IDA)

数据开发数据开发 (data mining)(data mining) 从数据中获得的知识从数据中获得的知识 基于算法基于算法 (algorithm-based)(algorithm-based) 的遗传的遗传

规律的发现规律的发现 知识的发现知识的发现 学习分类系统学习分类系统 机器学习机器学习 (machine learning)(machine learning) 其他 其他

IDAIDA 还是还是……

Page 7: 智能数据分析 (Intelligent Data Analysis,IDA)

IDAIDA 提供知识提供知识……

Page 8: 智能数据分析 (Intelligent Data Analysis,IDA)

经过收集,分类,组织,整合,概括经过收集,分类,组织,整合,概括和增值的信息的精华和增值的信息的精华

位于比资料和信息更高的抽象概念的位于比资料和信息更高的抽象概念的水平,并能用来推出新的信息和知识水平,并能用来推出新的信息和知识

往往表现为用来解决特定问题的专门往往表现为用来解决特定问题的专门技能技能

知识就是知识就是……

Page 9: 智能数据分析 (Intelligent Data Analysis,IDA)

是一个抽提、分析、转换、分类、是一个抽提、分析、转换、分类、组织和整合知识并以一种能用于计组织和整合知识并以一种能用于计算机系统的形式来阐明的过程算机系统的形式来阐明的过程

知识的获得知识的获得……

Page 10: 智能数据分析 (Intelligent Data Analysis,IDA)

一个领域的知识能用一系列的一个领域的知识能用一系列的规律来表达 规律来表达

Page 11: 智能数据分析 (Intelligent Data Analysis,IDA)

用来规定建议、指令或策略的正规方用来规定建议、指令或策略的正规方式。常用“式。常用“如果前提,那么结论如果前提,那么结论”或”或““如果条件那么行为如果条件那么行为”的形式表达”的形式表达

规律就是规律就是……

Page 12: 智能数据分析 (Intelligent Data Analysis,IDA)

怎样发现隐藏在数据中怎样发现隐藏在数据中的规律?的规律?

Page 13: 智能数据分析 (Intelligent Data Analysis,IDA)

See5See5—— 以决策树和以决策树和 // 或规律设置或规律设置的形式来分析数据和生成分类器的的形式来分析数据和生成分类器的程序程序

一些一些 IDAIDA 的工具的工具… …

http://www.rulequest.com

Page 14: 智能数据分析 (Intelligent Data Analysis,IDA)

CubistCubist—— 分析数据和生成基于规分析数据和生成基于规律的分段线形模型律的分段线形模型——规律的集合,规律的集合,每个规律都有相关的线形表达来计每个规律都有相关的线形表达来计算目标值算目标值……

一些一些 IDAIDA 的工具的工具… …

http://www.rulequest.com

Page 15: 智能数据分析 (Intelligent Data Analysis,IDA)

ILLMILLM—— 此工具以规律的形式建立此工具以规律的形式建立了分类模型,这种规律阐述了有关了分类模型,这种规律阐述了有关隐藏在数据中的关系的知识隐藏在数据中的关系的知识

一些一些 IDAIDA 的工具的工具… …

http://dms.irb.hr

Page 16: 智能数据分析 (Intelligent Data Analysis,IDA)

Magnum OpusMagnum Opus—— 找寻相关性规找寻相关性规律,因可以揭示数据中因素之间潜律,因可以揭示数据中因素之间潜在的相互作用而具有竞争性优势在的相互作用而具有竞争性优势

一些一些 IDAIDA 的工具的工具… …

http://www.rulequest.com

Page 17: 智能数据分析 (Intelligent Data Analysis,IDA)

绝对绝对 && 相对精确性相对精确性 灵敏性灵敏性 && 特异性特异性 假阳性假阳性 && 假阴性假阴性 误差率误差率 规律的可靠性规律的可靠性 及其他及其他

IDAIDA 结果评价结果评价

Page 18: 智能数据分析 (Intelligent Data Analysis,IDA)

使用使用 See5See5 进行进行 IDAIDA 演示演示

IDAIDA 举例 举例

Page 19: 智能数据分析 (Intelligent Data Analysis,IDA)

应用应用 .. 姓名姓名——列出案例可能所属的列出案例可能所属的组别组别以及用来描述每个案例的以及用来描述每个案例的属性属性

属性有两类:离散属性从一系列可属性有两类:离散属性从一系列可能性中提取出一个数值,而连续性能性中提取出一个数值,而连续性属性有数字值属性有数字值

See5See5…… 应用应用……

Page 20: 智能数据分析 (Intelligent Data Analysis,IDA)

应用应用 .. 数据数据——提供提供训练训练案例的信息,案例的信息,See5See5 从中提取出模型从中提取出模型

每个案例的入口由一条或多条决定每个案例的入口由一条或多条决定所有属性值的线组成 所有属性值的线组成

See5See5…… 应用应用……

Page 21: 智能数据分析 (Intelligent Data Analysis,IDA)

应用应用 .. 测试测试——提供提供测试测试案例的信息案例的信息(用于结果评价)(用于结果评价)

每个案例的入口由一条或多条决定每个案例的入口由一条或多条决定所有属性值的线组成所有属性值的线组成

See5See5…… 应用应用……

Page 22: 智能数据分析 (Intelligent Data Analysis,IDA)

流行病学研究(流行病学研究( 1970-19901970-1990 )) 在这段时间内死于心血管病的受试者样本在这段时间内死于心血管病的受试者样本 问题:他们知道自己生病了吗?问题:他们知道自己生病了吗? 1—1— 他们是健康的他们是健康的 2—2— 他们有疾病(药物治疗,临床和实验室检他们有疾病(药物治疗,临床和实验室检 查阳性结果)查阳性结果)

See5See5…… 应用应用……实例实例… …

Page 23: 智能数据分析 (Intelligent Data Analysis,IDA)

应用应用 .. 姓名姓名——实例实例

See5See5…… 应用应用……实例实例… …

目标

性别:男,女

活性: 1 , 2 , 3

年龄:连续的

吸烟:否,是

目标: 1 , 2

Page 24: 智能数据分析 (Intelligent Data Analysis,IDA)

应用应用 .. 数据数据——实例实例

See5See5…… 应用应用……实例实例… …

男, 1 , 59 ,是, 0 , 0 , 0 , 0 , 119 , 73 , 103 , 86 ,247 , 87 , 15979 ,?,?,?, 1 , 73 , 2.5

男, 1 , 66 ,是, 0 , 0 , 0 , 0 , 132 , 81 , 183 , 239 ,?, 783 , 14403 , 27221 , 19153 , 23187 , 1 , 73 , 2.6

男, 1 , 61 ,否, 0 , 0 , 0 , 0 , 130 , 79 , 148 , 86 ,209 , 115 , 21719 , 12324 , 10593 , 11458 , 1 , 74 ,2.5

… …

Page 25: 智能数据分析 (Intelligent Data Analysis,IDA)

See5See5…… 应用应用……实例实例… …

结果结果——实例实例

规律 1 :(包括 26名)

性别 = 男

收缩压> 111

油脂> 2.9

-> 1 组 [0.929]

Page 26: 智能数据分析 (Intelligent Data Analysis,IDA)

See5See5…… 应用应用……实例实例… …

结果结果——实例实例规律 4 :(包括 14 名)

吸烟 = 是

收缩压> 131

葡萄糖> 93

葡萄糖<=118

油脂<= 2.9

-> 2 组 [0.938]

Page 27: 智能数据分析 (Intelligent Data Analysis,IDA)

See5See5…… 应用应用……实例实例… …

结果结果——实例实例

规律 15 :(包括 2名)

收缩压<=111

油脂> 2.9

-> 2 组别 [0.750]

Page 28: 智能数据分析 (Intelligent Data Analysis,IDA)

See5See5…… 应用应用……实例实例… …

结果结果——实例实例

训练数据评价( 199 例)

(a) (b) <- 分组为

---- ----

107 3 (a): 组 1

17 72 (b): 组 2

Page 29: 智能数据分析 (Intelligent Data Analysis,IDA)

结果结果——实例(实例(训练训练集) 集)

See5See5…… 应用应用……实例实例… …

灵敏性 =0.97

特异性 =0.81

Page 30: 智能数据分析 (Intelligent Data Analysis,IDA)

See5See5…… 应用应用……实例实例… …

结果结果——实例实例

测试数据评价( 73 例)

(a) (b) <- 分组为

---- ----

43 1 (a): 组 1

3 26 (b): 组 2

Page 31: 智能数据分析 (Intelligent Data Analysis,IDA)

结果结果——实例(实例(测试测试集) 集)

See5See5…… 应用应用……实例实例… …

灵敏性 =0.98

特异性 =0.90

Page 32: 智能数据分析 (Intelligent Data Analysis,IDA)

所有推荐的所有推荐的 IDAIDA 工具在提到的工具在提到的 URLURL

上都是可用的,至少也有测试版本上都是可用的,至少也有测试版本

试试你自己的 IDA…

谢谢!