论文部分内容阅读
                            
                            
                                随着信息化时代的到来,各个领域的数据量呈现了指数爆炸式增长,如何高效地从海量数据中挖掘其潜在的规律性已成为智能信息处理领域的研究热点,聚类算法是数据挖掘中主要方法之一,其重要性日益凸显。聚类算法能根据数据本身的属性和特征挖掘数据的类别信息而无需对大量数据的人工标记。作为聚类算法的一个分支,谱聚类算法能处理非凸分布的数据,有效解决传统聚类算法易收敛于局部最优解的问题。然而实际中,谱聚类算法因复杂度较高,且受限于无监督学习,因此算法的性能有待进一步提高。本论文主要研究基于稀疏表示的谱聚类算法,主要研究内容和取得的研究成果如下:1.针对地标点选取受数据分布和噪声影响易造成选取不均匀的问题,提出了一种基于快速选取地标点的谱聚类算法。该算法通过从备选集合中迭代选取各个簇中具有代表性的数据,较好地解决了选取地标点不均匀的问题,有效减小了稀疏表示带来的误差。实验表明,该算法具有更好的聚类准确率。2.针对成对约束扩展的局限性,提出了一种基于强连通分量的隐含约束扩展算法(TEC)。该算法通过计算无向图的强连通分量,同时根据隐含约束扩展的条件,逐步筛选满足隐含约束扩展的强连通分量,从而实现约束扩展。实验结果表明,所提算法能扩展出更多的监督信息,并且对隐含约束的扩展速度较快。3.针对现有的半监督谱聚类算法只能融合部分成对约束信息的不足,研究了两种解决方法。一方面,在权重矩阵中融合隐含约束扩展后的监督信息,提出了一种基于隐含约束扩展的地标点稀疏表示谱聚类算法(LSC-EC)。另一方面,在划分代价函数中融合隐含约束扩展后的监督信息,提出了一种基于隐含约束扩展的L1范数约束谱聚类算法(ECOSC)。LSC-EC通过强连通分量的隐含约束扩展,得到更加精确的连通区域,并利用监督信息更新稀疏表示矩阵。ECOSC利用约束扩展,在划分代价函数中加入更多的约束信息,并将其转化为连续的优化问题的求解。实验结果表明,LSC-EC和ECOSC均能取得较好的聚类效果,证明了隐含约束扩展在一定程度上对聚类划分起到了指导作用。