论文部分内容阅读
随着人工智能和大数据技术的快速发展,适用于各种场景的智能设备应运而生,由此产生并收集了大量的高维数据。在图像模式识别、文本数据挖掘等应用领域,经常处理含有大量冗余特征的高维数据,冗余特征不仅会增加机器学习模型的训练时间,而且影响模型的泛化能力,并且降低模式识别的效率,甚至导致“维数灾难”,因此剔除数据中的冗余特征非常必要。特征选择方法可以识别数据中具有代表性的特征,通过去除不重要的冗余特征减少数据的维数,有效地解决数据维数过高带来的问题。当数据样本没有类别标签时,有监督特征选择方法不再适用,需要研究适用于无标签数据的无监督特征选择方法,本文研究并提出两种不同类型的无监督特征选择方法,具体工作如下。第一种方法是基于正则互表示的无监督特征选择方法,其理论依据是正则回归分析理论。该方法包含三个创新点,其一是首次提出了特征互表示性质,其二是构造了新的特征选择数学模型,其三是设计了新的优化算法。所提方法首先利用特征之间的相关性,将特征选择问题建模为损失函数最小化问题,建立由Frobenius范数约束的正则回归数学模型;然后设计分治-岭回归优化算法,对特征选择数学模型进行快速优化;最后根据模型的最优解综合确定每个特征的权重,选出数据中具有代表性的特征子集。所提方法能够合理地为特征分配权重,并且具有较低的计算复杂度。第二种方法是基于聚类方差的无监督特征选择方法,其理论依据是无监督聚类学习理论。该方法包含两个创新点,其一是提出了特征聚类理论,其二是将聚类算法与方差法进行融合得到新的特征选择方法。所提方法首先对特征进行聚类,根据特征相似度对特征进行分组,相似的特征被聚在同一个簇中,不相似的特征会被聚到不同的簇中,由于相似特征提供大量的冗余信息,因此需要剔除相似特征而仅保留少数具有代表性的特征;为了使得降维后数据聚类准确率得到较好地提升,依据最大方差准则选取每个聚簇中离散程度最大的特征;最后将选出的特征组成特征子集作为特征选择结果。所提方法具有较好的数据解释能力,并且具有稳定的计算性能。将所提的两种无监督特征选择方法在标准数据集上进行实验,结果表明所提方法能够选出高维数据中具有代表性的特征子集,降低了数据冗余,提升了聚类精度,改善了数据在无监督学习场景中的表现。