论文部分内容阅读
随着计算机技术的发展,机器学习在社会生活中得到了广泛的应用。在机器学习领域中,存在大量针对高维数据进行的识别和分析问题,如生物信息数据识别、人脸识别和电子商务数据分析等。高维数据的出现给机器学习提出了新的挑战,一方面,其不仅难以被人们直观理解,而且还带来了新的“维数灾难”问题;另一方面,相对于标注数据,现实中的无标注数据实际上更加丰富,由于缺少标注数据的指导,无监督条件下的高维数据分析更具挑战性。因此,如何从高维数据中选择有效的特征已成为当前的研究热点和难点。本文针对无监督特征选择方法进行了研究,主要工作如下:1)多样性引导的无监督特征选择针对当前无监督特征选择方法,在选取数据特征时忽略了特征之间的多样性,使得所选特征存在较大冗余的问题,提出了多样性引导的无监督特征选择方法。该方法同时融合了特征的代表性和多样性。具体地讲,基于特征固有的自表达特性,代表性特征将被选取;同时,采用特征相似度调整所选特征权重的多样性算子也将引导选取多样性的特征。这样不仅可以选取最相关的数据特征,同时也使得选择的特征尽可能地包含更多的信息,从而去除了特征冗余。最后,利用增广迭代方向最小化策略的方法对所提算法模型进行了有效的优化,并且利用聚类和分类实验证明了所提方法的有效性。2)保留局部结构的无监督特征选择针对自表达的无监督特征选择过程中特征局部结构被忽略的问题,提出了结构化自表达的无监督特征选择方法。该方法结合了特征的自表达特性以及特征之间的局部结构信息,使得可以更加准确地选取代表性特征。在模型中,使用2,1范数正则化技术保证了选取少量代表性的特征,采用图正则化约束保留了特征的局部结构信息。由于目标函数为凸问题,可以通过迭代变量优化算法进行有效求解。最后,通过模拟数据和真实数据集验证了该方法的优越性。3)先验结构约束的无监督特征选择针对无监督特征选择过程中存在的先验结构信息,提出了基于理想局部结构约束的无监督特征选择方法。由于真实数据中往往含有大量的冗余特征和噪声,所以由原始特征构建的相似度矩阵往往是不准确、不可靠的。基于聚类结果的相似度矩阵往往具有明确的块对角线结构,提出了采用理想的块对角线结构约束原始数据以获取更加合理的相似度矩阵,通过谱分析技术得到更加准确的簇标签以引导特征选择过程。因此,选取的特征更加具有判别性,同时可以进一步提高聚类的精度。最后,通过多个真实数据集的聚类性能证明了所提算法的有效性。本文提出了三种有效的无监督特征选择算法,挖掘了数据特征之间的多样性、特征之间的局部结构信息以及先验的结构信息,是对无监督特征选择相关问题的有效探索,丰富了该领域的研究内容。