林琛博士，副教授

聚类

林琛博士，副教授

本讲要点• 聚类概念• 聚类方法– 划分法： k-means– 层次聚类– 基于密度的方法： DBScan

• 聚类的效果评估

什么是聚类分析• 把对象分成若干个簇– 同簇内的对象彼此相似– 不同簇内的对象彼此相异

• 聚类的作用– 独立应用• 论文作者消歧

– 可视化• 展现微博区域

– 预处理

聚类分析的几种方法• 划分方法– 将数据对象分为几组– 每组至少包含一个对象– 每个对象属于一组

• 层次方法– 凝聚：自底向上– 分裂：自顶向下

• 基于密度的方法– 根据邻域中的对象数量聚类

聚类分析的一般准备属性颜色长宽比1 255106106 1.2

2 25511486 1.0

3 255239219 0.5

向量化相异度矩阵

相似度 / 相异度（ Lecture 5 ）• 明氏距离 Minkowski Distance– 曼哈顿距离（城市街区距离）： p=1– 欧式距离 :p=2

• 余弦相似度 Cosine Similarity

• 皮尔逊积矩相关系数 Pearson Correlation

• 杰卡德相似度 Jaccard Similarity

• 编辑距离 Edit Distance

K-means 方法将每个对象指派到最相似的簇

更新簇中心（均值）

更新簇中心

重新指派对象1. 任意选择 k 个对象作为簇中心

重复

簇中心均值： k-means中位数： k-median不连续 -> 众数： k-mode

停止条件• 我们希望，同一个簇中的对象是相近的，而不同

簇中对象是相异的

• 准则带来问题– 局部最优– 球状簇– 离群点

• 算法带来问题– 依赖于初始点选择

K-means 问题（ 1 ）较好的初始点不好的初始点局部最优

K-means 问题（ 2 ）• 球状簇

• 离群点（噪声）

层次聚类

• 使用相异度矩阵• 自顶向下或自底向上

Step 0 Step 1 Step 2 Step 3 Step 4

a b c d e

Step 4 Step 3 Step 2 Step 1 Step 0

agglomerative(AGNES)

divisive(DIANA)

类间距离• 单链接 Single link: 最小距离 dist(Ki, Kj) = min(tip, tjq)

• 全链接 Complete link: 最大距离 dist(Ki, Kj) = max(tip, tjq)

• 平均 Average: 平均距离 dist(Ki, Kj) = avg(tip, tjq)

• 质心 Centroid: 簇质心距离 dist(Ki, Kj) = dist(Ci, Cj)

• Medoid: dist(Ki, Kj) = dist(Mi, Mj)

– Medoid: 选择簇中的一个点，到簇内其他点的距离之和最小

层次聚类问题• 扩展性– O(n2) ， n 是数据对象数目

• 不可回溯– 已经聚类的数据对象不能重新计算

基于密度的聚类• 参数

– Eps ：点 p 的半径 Eps 内范围成为 p 的 Eps- 邻域– MinPts ：邻域内数据对象最小数目（ p 为核心对象）

• 直接密度可达– 如果 p 在 q 的 Eps 邻域内，且 q 的 Eps 邻域内至少包含 MinPts

个对象，则 p 是 q 直接密度可达的• 密度可达

– 如果存在对象链 p1,p2,…pn,pi+1 是从 pi 直接密度可达的，则p1 是从 pn 出发密度可达的

• 密度相连– 如果 p 和 q 都是从 o 出发密度可达的，则 p 和 q 是密度相连的

密度可达和密度相连

MinPts = 5

Eps = 1 cm

1. 请指出上图中 p 是从 q 出发直接密度可达的吗 ?2. 请指出右边两个图中直接密度可达、密度可达、

密度相连的点对

DBSCAN: Density-Based Spatial Clustering of Applications with Noise

• 算法– 检查每个点的 Eps 邻域

• 如果是核心对象，则建立新簇• 迭代的聚集直接密度可达的对象，合并密度可达簇

– 当不存在新点时，算法结束• 对参数敏感• 簇形状不限

Border

Outlier

Eps = 1cm

MinPts = 5

DBSCAN: Sensitive to Parameters

聚类评估• 聚类评估的天然准则– 内部准则（聚类算法本身使用的准则）– 高簇内相似度，低簇间相似度– 一般评估意义不大

• 聚类评估的挑战– 主观性

– 由于聚类通常作为预处理 /后处理的一部分，和应用有关

水果聚类按种类：苹果 /梨子 /草莓按味道：甜 /酸 /多汁 / 干按大小：小 / 中 / 大按季节：春 /夏 /秋 /冬按产地：热带 /温带 /寒带按性质：热性 /凉性 /温性

命名实体消歧检索结果聚类

聚类评估方法• 直接评估– 大规模的 user study

• 几种典型的外部评估准则–纯度 Purity–归一化互信息量 Normalized mutual information–约当指数 Rand index– F-measure

聚类评估方法：纯度• 需要一个分类的基准 (benchmark)

1. 对于每一个簇，指定在簇内出现最多的类别为这个簇的类别

2. 计算上述指定的正确率，即正确分类的实例 /总数• 聚类效果好，纯度接近 1 ，否则接近 0

分类基准： x,o, ◇

课堂小 quiz ：评估上图聚类结果的 purity

结果：Cluster1: x: 5/6Cluster2:o:4/6Cluster 3: :3/5◇取平均： 0.71

聚类评估方法：归一化互信息• 纯度缺点– 和聚类数目有关，每个实例一个簇，纯度 =1

• 引入互信息的概念

• 标准化互信息 NMI– 范围 [0,1] ，可以在不同聚类数目比较

互信息经常用于分类的特征选择，量化了特征对于类别的指示程度。简单的说互信息 I(x;y)就是 y 对于 x 的信息量增加I(X;Y)=H(x)-H(x|Y)

分类基准： x,o, ◇

课堂小 quiz ：评估上图聚类结果的 NMI

p(x=1,y=“x”)=5/17, p(x=2,y=“x”)=1/17p(x=1)=6/17p(y=“x”)=8/17

聚类评估方法Rand 指数 &F-measure

• 聚类结果是一系列对实例对的决策• 其中每一个决策可以是– TP ：把相似对放在了同一个簇里– TN ：把不相似对放在了不同簇里– FP ：把不相似对放在了同一个簇里– FN ：把不相似对放在了不同簇里

• Rand index= (TP+TN)/(TN+TP+FP+FN)– 即精度

• F-measure考虑 TP 和 TN 的重要性是不同的– 通常把相似对分开在不同簇里是更糟糕的决策

例子分类基准： x,o, ◇

课堂小 quiz ：评估上图聚类结果的 RI 和 F-measure

1, 计算聚类结果中决策总数（即实例对总数）C17

2=1362, 计算 TPCluseter 1 “x” C5

2 Cluseter 2 “o” C42 Cluseter 3 “x” C2

2 Cluseter 3 “ ” C◇ 32

=203, 计算 FPCluseter 1 C6

2 Cluseter 2 C62 Cluseter 3 C5

=40 – TP =204, 计算 TN136-40-FN=725, 计算 FN“x” 5x1+5x2+1x2=17 “o” 1x4=4 “ ” 1x3=3◇=246, 计算 RI7, 计算 F-measure （需给定 β ）

林琛博士，副教授

Documents

資料2 ともに、前へ仙台 Moving Forward As One SENDAI · 岩手県副知事千葉茂樹宮城県副知事若生正博秋田県副知事橋口昌道山形県副知事

FC122 Manual Book - 副本 - 副本 - Codime variadores de

国家基础教育实验中心副主任东北师大教育科学学院博导

琛小正向校園之旅 - Education Bureau · 正如Dr Martin Seligman 沙利文博士在「邁向圓滿」書中第五章，提及「幸福是應該在學校裏教。」原因：

6. Knowledge Management —Workshop 余文德中華大學營建管理研究所副教授營建管理博士、土木技師

形象思维与工程语言 2014/10/30 杨培中博士副教授上海交通大学 pzyang@sjtu

大地绿源环保科技（北京）有限公司许宜北副总经理博士 2013年5月12日

主講人：陳佳宏博士現職：樹德科技大學運籌管理系副教授

东北育才学校高琛

12 丁文江租房做学问 - jwb.com.cnepaper.jwb.com.cn/jwb/resfile/2019-05-17/12/jwb...责任编辑：彭博副刊专刊部电话：23602873 12 2019年5月17日星期五副刊·讲述

梁启超谈书法 - jwb.com.cnepaper.jwb.com.cn/jwb/resfile/2019-06-10/12/jwb...责任编辑：彭博朱孝兵副刊专刊部电话：23602873 12 2019年6月10日星期一副刊·津沽

Chair: Shengshou Hu · 广东省人民医院（广东省医学科学院）副院长，主任医师，医学博士，博士生导师 , 现任中华医学会老年医学分会副主任委员，广东省医学会老年医学分

Alfredo Bautista 博士 · 8/24/2020 · 2019/20学年第二期 Alfredo Bautista 博士副教授参考文献：课程发展议会（2017）：《幼兒园教育课程指南》，检自

Case Studies FIDIC PSM FIDIC 副主席约翰 · 博伊得（ John Boyd ）

博鳌亚洲论坛 2018 年年会 - boaoforum.org · 22.03.2018 · 2018/3/22 4 特邀嘉宾 - 商务部副部长王受文 - 天津市副市长赵海山 09:00 - 10:00 博鳌亚洲论坛本届理事会会议

第 19 章铜副族和锌副族

วารสาร ร่มโพธิ์ทอง · 在5日当天，我校校长叶尧生博士、副教授与Galuh University大学校长Dr.H.Yat.Rospia Brata,M.si.，我校副校

2018“一带一路”媒体合作论坛在博鳌举行epaper.sanyarb.com.cn/resfile/2018-10-31/01/01.pdf2018/10/31 · 群，福建省副省长杨贤金，山东省副省长任爱荣，四川省副省长李云

Chapter two Arthrology Chapter two Arthrology Department of Anatomy 张正洪博士 / 副教授

鍾景輝獲頒授樹人大學博，是博識。榮譽文學博士學位贊辭 · °人鍾景輝獲頒授樹人大學. 榮譽文學博士學位贊辭. 胡副校監閣下，香港樹仁大學頒予榮譽文學博

林琛 博士 ， 副 教授

林琛博士，副教授