论文笔记 | 聚类:A New Simplex Sparse Learning Model to Measure Data Similarity for Clustering

这篇论文主要贡献点在于应用稀疏表示理论来构建图,并提供了一种比较常用的优化算法,相关论文和代码见http://www.escience.cn/people/fpnie/papers.html(尤其是优化算法的代码,很多地方都能用到)

Abstract

    基于图的拉普拉斯矩阵用途很广,但是拉普拉斯图的构造存在一些有待讨论的问题;

    问题包括:如何确定分析的规模,如何确定临近点的数目,如何处理多尺度的数据,如何解决噪声和极端值;

    本文提出:成对的数据点之间的相似度可以由确定约束的稀疏表示来进行计算;

    通过无参的方法自动生成拉普拉斯图,这样可以降低计算复杂度同时提高鲁棒性;

    本文同时提出了一种有效的算法来解决复杂的优化问题。

1

1.1 Background and Motivation

    图理论是数学的一个重要分支,基于图理论产生了很多算法及应用(聚类算法、半监督学习等),本文仅将讨论范围约束在可以转化成相似度矩阵的数据集;

    目前针对拉普拉斯图的构造存在的问题,有些方法解决了一部分的问题,如:Self-tuning spectral clustering 解决了如何确定分析的规模及如何处理多尺度的数据,但是尚无方法解决所有的问题;

    后文将先做铺垫,然后介绍 Simplex Sparse Representation (SSR)方法,并介绍一种新的加速算法。

1.2 Different Similarity Graphs

    这一部分主要介绍了几种目前计算相似度矩阵中各个点之间相似度的方法,包括连接所有相似度小于 \epsilon的点;kNN;全连接图,如高斯相似函数;

    但是这三种方法都存在参数,需要一种无参且具有鲁棒性的方法,这就是本文的动机。

1.3 Introduction to Sparse Representation

    这一部分介绍稀疏表示的形式,假设数据点为 d\times n的矩阵, d为特征, n为数据点个数。给出一个新的稀疏表示 y和表示向量 \beta,为了得到稀疏解,加上零范数的约束,得到目标函数:

     \min_{\beta} \left \| X\beta -y\right \|_{2}^{2}+\lambda _0\left \| \beta \right \|_0

     L_0范数可以近似转化成 L_1范数的形式,这样可以更容易进行优化求解(可以参考这篇博客https://blog.csdn.net/zouxy09/article/details/24971995):

     \min_{\beta} \left \|\beta\right \|_{1}, s.t. X\beta=y

    或者是:

     \min_{\beta} \left \| X\beta -y\right \|_{2}^{2}+\lambda _1\left \| \beta \right \|_1

    稀疏表示具有鲁棒性,且对数据的规模一致性没有限制,这样可以解决引言中提出的问题。

2. Similarity Matrix Construction with Simplex Representation

    普遍使用的高斯核函数在构建相似度矩阵时,对于参数十分敏感且难以调参。

    可以应用稀疏表示来计算相似度矩阵 S,第 i个特征和其他特征之间的相似度 \alpha_i\in \mathbb{R}^{n-1} 表示为:(此处论文是这么写的,但我感觉是笔误吧?应该是 第 i个数据点和其他数据点之间的相似度吧)

     \min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}+\lambda _1\left \| \alpha_i \right \|_1

    其中 X_{-i}表示不含点 x_i的数据矩阵。

    加入非负约束 \alpha_i\geq 0,同时考虑到,数据点均等的发生变换的时候,相似度应该是不变的,因此应该再加上约束 \alpha_i^T\mathbf {1}=1,这样就有:

     \min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}+\lambda _1\left \| \alpha_i \right \|_1\\s.t. \alpha_i\geq 0,\alpha_i^T\mathbf {1}=1

    这其中的约束可以让第二项保持固定,因此变为:

     \min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}\\s.t. \alpha_i\geq 0,\alpha_i^T\mathbf {1}=1

    上述目标函数引入了稀疏解,可以用加速投影梯度法来进行优化求解,下一节将对这种方法进行介绍。

3. Optimization Details and Algorithm

    提出的加速投影梯度法通过逼近和迭代的方法来求解 \alpha_i

    推导过程略,算法如下:

    其中的等式13为:

    

    算法中收敛的标准是 \alpha_i的frobenius范数小于 10^{-4}

    需要注意的是,这样得到的 S是不对称的,因此相似度矩阵需要再进行一步对称化操作:

 W=\frac{S+S^T}{2}

3.1 Optimization Algorithm to Eq.(13)

    这一部分通过拉格朗日方法求解了等式13,过程略。

    

4. Experiments on Synthetic DataSets

    这一部分及下面几节都是实验相关,略。

    

    

本文由 DeepSmart.AI 作者:lr_AI 发表,其版权均为 lr_AI 所有,文章内容系作者个人观点,不代表 DeepSmart.AI 对观点赞同或支持。如需转载,请注明文章来源。本文链接地址:http://www.deepsmart.ai/122.html
DeepSmart

发表评论