大 规 模 低 质 量 多 模 态 数 据 聚 类
刘 新 旺
Email: [email protected]
国 防 科 技 ⼤ 学 计 算 机 学 院模 式 识 别 与 机 器 智 能 教 研 室
2019 年 10 月 22 日
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 1 / 25
研究背景及现状
报告内容
1 研究背景及现状
2 我们的工作缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)
3 总结与展望
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 2 / 25
研究背景及现状
大数据特性
大数据具有如下特性:
数据量大:计算效率?
信息多:多源信息融合
数据质量低:数据缺失、噪声
· · ·聚类是大数据分析中的常用算法之一,聚焦于大规模低质量多模态数据的聚类算法研究。
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 3 / 25
研究背景及现状
聚类及其应用
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 4 / 25
研究背景及现状
多视图表示
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 5 / 25
研究背景及现状
典型的多视图聚类算法
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 6 / 25
研究背景及现状
多核 K− 均值聚类 (Multiple Kernel k-means, MKKM)
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 7 / 25
我们的工作
报告内容
1 研究背景及现状
2 我们的工作缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)
3 总结与展望
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 8 / 25
我们的工作
研究动机
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 9 / 25
我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)
缺失多核聚类算法—动机
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 10 / 25
我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)
缺失多核聚类算法—优化目标
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 11 / 25
我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)
缺失多核聚类算法—求解算法
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 12 / 25
我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)
缺失多核聚类算法—试验结果 (1/2)
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 13 / 25
我们的工作 缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)
缺失多核聚类算法—试验结果 (2/2)
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 14 / 25
我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)
非完整多视图聚类—研究动机
高额的计算和存储开销
过度复杂的填充模型
有限改进的聚类性能
首先定义第 p-th (1 ≤ p ≤ m) 个基聚类矩阵为
Hp = [H(o)p
⊤,H(u)
p⊤]⊤ ∈ Rn×k, (1)
其中 H(o)p ∈ Rnp×k 可以对 m 个非完整核矩阵 {Kp(sp, sp)}m
p=1 执行核
k-means 算法获取到,H(u)p ∈ R(n−np)×k 表示 Hp 的非完整部分,它需要
在在学习的过程中填充。
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 15 / 25
我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)
非完整多视图聚类–算法模型
EE-IMVC 同时执行聚类和对 {H(u)p }m
p=1 的填充,同时保持 {H(o)p }m
p=1 在学习的过程中保持不变。
maxH,{Wp,H(u)
p ,βp}mp=1
Tr[
H⊤∑m
p=1βp
(H(o)
pH(u)
p
)Wp
]s.t. H ∈ Rn×k, H⊤H = Ik, Wp ∈ Rk×k, W⊤
p Wp = Ik,
H(u)p ∈ R(n−np)×k, H(u)
p⊤
H(u)p = Ik, β ∈ Rm,
∑m
p=1β2
p = 1, βp ≥ 0,
(2)其中 H 和 H(u)
p 分别代表公共聚类矩阵和第 p 个基聚类矩阵的缺失部分,Wp 代表第 p 个置换矩阵,用于最优地匹配 Hp 和 H,β = [β1, · · · , βm]⊤ 是 m 个基聚类矩阵的权重。
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 16 / 25
我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)
非完整多视图聚类—优化算法
设计了一个简单但计算有效的方法来解决该优化问题。1) 固定 {Wp,H(u)
p }mp=1 和 β 来优化 H;
2) 固定 H, {H(u)p }m
p=1 和 β 来优化;
3) 固定 {Wp}mp=1, H 和 β 来优化 {H(u)
p }mp=1;
4) 固定 H and {Wp, H(u)p }m
p=1 来优化 β。
算法从理论上保证具有(局部)最优解。
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 17 / 25
我们的工作 非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)
非完整多视图聚类—实验结果
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
missing ratio
0.3
0.35
0.4
0.45
0.5
0.55
AC
C
Flower17
MKKM+ZF
MKKM+MF
MKKM+KNN
MKKM+AF
MKKM-IK
LI-MKKM
EE-IMVC0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
missing ratio
0.2
0.25
0.3
0.35
0.4
AC
C
Flower102MKKM+ZF
MKKM+MF
MKKM+KNN
MKKM+AF
MKKM-IK
LI-MKKM
EE-IMVC
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
missing ratio
0.15
0.16
0.17
0.18
0.19
0.2
0.21
0.22
0.23
0.24
0.25
AC
C
CCVMKKM+ZF
MKKM+MF
MKKM+KNN
MKKM+AF
MKKM-IK
LI-MKKM
EE-IMVC
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
missing ratio
0.14
0.16
0.18
0.2
0.22
0.24
0.26
0.28
0.3
0.32
AC
C
Caltech102
MKKM+ZF
MKKM+MF
MKKM+KNN
MKKM+AF
MKKM-IK
LI-MKKM
EE-IMVC
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 18 / 25
我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)
基于 DNN 的近似大规模多核 K 均值聚类—动机
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 19 / 25
我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)
基于 DNN 的近似大规模多核 K 均值聚类—示意图
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 20 / 25
我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)
基于 DNN 的近似大规模多核 K 均值聚类算法
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 21 / 25
我们的工作 基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)
基于 DNN 的近似大规模多核 K 均值聚类—试验结果
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 22 / 25
总结与展望
报告内容
1 研究背景及现状
2 我们的工作缺失多核聚类算法 (AAAI-2017、IEEE TPAMI-2019)非完整多视图聚类 (IEEE TPAMI-2018、AAAI-19)基于 DNN 的近似大规模多核 K 均值聚类算法 (IJCAI-2017)
3 总结与展望
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 23 / 25
总结与展望
值得探索的方向
深度嵌入聚类、深度单分类
基于深度神经网络的迁移学习
深度核学习
深度学习的泛化性能分析(深度:表示能力更强、信息损失更重)
谢谢!请多批评指正[email protected]
刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 24 / 25
总结与展望
部分参考文献
1 Xinwang Liu et. al.: Late Fusion Incomplete Multi-viewClustering. IEEE TPAMI 2018. (CCF Rank A)
2 Xinwang Liu et. al.: Multiple Kernel k-means withIncomplete Kernels. IEEE TPAMI 2019. (CCF Rank A)
3 Xinwang Liu et. al.: Absent Multiple Kernel LearningAlgorithms. IEEE TPAMI 2019. (CCF Rank A)
4 Xinwang Liu et. al.: Efficient and Effective IncompleteMulti-view Clustering. AAAI2019. (CCF Rank A)
5 Xinwang Liu et. al.: Multiple Kernel k-means withIncomplete Kernels. AAAI2017. (CCF Rank A)
6 Xinwang Liu et. al.: Optimal Neighborhood Kernel Clusteringwith Multiple Kernels. AAAI2017. (CCF Rank A)
7 Xinwang Liu et. al.: Efficient and Effective RegularizedIncomplete Multi-view Clustering. IEEE TPAMI 2019. (MajorRevision) (CCF Rank A)刘 新 旺 (NUDT) 大规模低质量多模态数据聚类 VALSE 2019 25 / 25