View
130
Download
0
Category
Preview:
DESCRIPTION
聚类. 林琛 博士 , 副 教授. 本讲要点. 聚类概念 聚类方法 划分法: k-means 层次聚类 基于密度的方法: DBScan 聚类的效果评估. 什么是聚类分析. 把对象分成若干个簇 同簇内的对象彼此相似 不同簇内的对象彼此相异 聚类的作用 独立应用 论文作者消歧 可视化 展现微博区域 预处理. 聚类分析的几种方法. 划分方法 将数据对象分为几组 每 组至少包含一个对象 每个 对象属于一组 层次 方法 凝聚:自底向上 分裂:自顶向下 基于密度 的方法 根据邻域中的对象数量聚类. 聚类分析的一般准备. 向量化. - PowerPoint PPT Presentation
Citation preview
什么是聚类分析• 把对象分成若干个簇– 同簇内的对象彼此相似– 不同簇内的对象彼此相异
• 聚类的作用– 独立应用• 论文作者消歧
– 可视化• 展现微博区域
– 预处理
相似度 / 相异度( Lecture 5 )• 明氏距离 Minkowski Distance– 曼哈顿距离(城市街区距离): p=1– 欧式距离 :p=2
• 余弦相似度 Cosine Similarity
• 皮尔逊积矩相关系数 Pearson Correlation
• 杰卡德相似度 Jaccard Similarity
• 编辑距离 Edit Distance
K-means 方法将每个对象指派到最相似的簇
更新簇中心(均值)
更新簇中心
重新指派对象1. 任意选择 k 个对象作为簇中心
重复
簇中心均值: k-means中位数: k-median不连续 -> 众数: k-mode
层次聚类
• 使用相异度矩阵• 自顶向下或自底向上
Step 0 Step 1 Step 2 Step 3 Step 4
b
d
c
e
a a b
d e
c d e
a b c d e
Step 4 Step 3 Step 2 Step 1 Step 0
agglomerative(AGNES)
divisive(DIANA)
类间距离• 单链接 Single link: 最小距离 dist(Ki, Kj) = min(tip, tjq)
• 全链接 Complete link: 最大距离 dist(Ki, Kj) = max(tip, tjq)
• 平均 Average: 平均距离 dist(Ki, Kj) = avg(tip, tjq)
• 质心 Centroid: 簇质心距离 dist(Ki, Kj) = dist(Ci, Cj)
• Medoid: dist(Ki, Kj) = dist(Mi, Mj)
– Medoid: 选择簇中的一个点,到簇内其他点的距离之和最小
X X
基于密度的聚类• 参数
– Eps :点 p 的半径 Eps 内范围成为 p 的 Eps- 邻域– MinPts :邻域内数据对象最小数目( p 为核心对象)
• 直接密度可达– 如果 p 在 q 的 Eps 邻域内,且 q 的 Eps 邻域内至少包含 MinPts
个对象,则 p 是 q 直接密度可达的• 密度可达
– 如果存在对象链 p1,p2,…pn,pi+1 是从 pi 直接密度可达的,则p1 是从 pn 出发密度可达的
• 密度相连– 如果 p 和 q 都是从 o 出发密度可达的,则 p 和 q 是密度相连的
密度可达和密度相连
p q
o
p
qp1
MinPts = 5
Eps = 1 cm
p
q
1. 请指出上图中 p 是从 q 出发直接密度可达的吗 ?2. 请指出右边两个图中直接密度可达、密度可达、
密度相连的点对
DBSCAN: Density-Based Spatial Clustering of Applications with Noise
• 算法– 检查每个点的 Eps 邻域
• 如果是核心对象,则建立新簇• 迭代的聚集直接密度可达的对象,合并密度可达簇
– 当不存在新点时,算法结束• 对参数敏感• 簇形状不限
Core
Border
Outlier
Eps = 1cm
MinPts = 5
聚类评估• 聚类评估的天然准则– 内部准则(聚类算法本身使用的准则)– 高簇内相似度,低簇间相似度– 一般评估意义不大
• 聚类评估的挑战– 主观性
– 由于聚类通常作为预处理 /后处理的一部分,和应用有关
水果聚类按种类:苹果 /梨子 /草莓按味道:甜 /酸 /多汁 / 干按大小:小 / 中 / 大按季节:春 /夏 /秋 /冬按产地:热带 /温带 /寒带按性质:热性 /凉性 /温性
命名实体消歧检索结果聚类
聚类评估方法• 直接评估– 大规模的 user study
• 几种典型的外部评估准则–纯度 Purity–归一化互信息量 Normalized mutual information–约当指数 Rand index– F-measure
聚类评估方法:纯度• 需要一个分类的基准 (benchmark)
1. 对于每一个簇,指定在簇内出现最多的类别为这个簇的类别
2. 计算上述指定的正确率,即正确分类的实例 /总数• 聚类效果好,纯度接近 1 ,否则接近 0
分类基准: x,o, ◇
课堂小 quiz :评估上图聚类结果的 purity
结果:Cluster1: x: 5/6Cluster2:o:4/6Cluster 3: :3/5◇取平均: 0.71
聚类评估方法:归一化互信息• 纯度缺点– 和聚类数目有关,每个实例一个簇,纯度 =1
• 引入互信息的概念
• 标准化互信息 NMI– 范围 [0,1] ,可以在不同聚类数目比较
互信息经常用于分类的特征选择,量化了特征对于类别的指示程度。简单的说互信息 I(x;y)就是 y 对于 x 的信息量增加I(X;Y)=H(x)-H(x|Y)
分类基准: x,o, ◇
课堂小 quiz :评估上图聚类结果的 NMI
p(x=1,y=“x”)=5/17, p(x=2,y=“x”)=1/17p(x=1)=6/17p(y=“x”)=8/17
聚类评估方法Rand 指数 &F-measure
• 聚类结果是一系列对实例对的决策• 其中每一个决策可以是– TP :把相似对放在了同一个簇里– TN :把不相似对放在了不同簇里– FP :把不相似对放在了同一个簇里– FN :把不相似对放在了不同簇里
• Rand index= (TP+TN)/(TN+TP+FP+FN)– 即精度
• F-measure考虑 TP 和 TN 的重要性是不同的– 通常把相似对分开在不同簇里是更糟糕的决策
β>1
例子分类基准: x,o, ◇
课堂小 quiz :评估上图聚类结果的 RI 和 F-measure
1, 计算聚类结果中决策总数(即实例对总数)C17
2=1362, 计算 TPCluseter 1 “x” C5
2 Cluseter 2 “o” C42 Cluseter 3 “x” C2
2 Cluseter 3 “ ” C◇ 32
=203, 计算 FPCluseter 1 C6
2 Cluseter 2 C62 Cluseter 3 C5
2
=40 – TP =204, 计算 TN136-40-FN=725, 计算 FN“x” 5x1+5x2+1x2=17 “o” 1x4=4 “ ” 1x3=3◇=246, 计算 RI7, 计算 F-measure (需给定 β )
Recommended