无监督特征选择方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:room_yuy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和大数据技术的快速发展,适用于各种场景的智能设备应运而生,由此产生并收集了大量的高维数据。在图像模式识别、文本数据挖掘等应用领域,经常处理含有大量冗余特征的高维数据,冗余特征不仅会增加机器学习模型的训练时间,而且影响模型的泛化能力,并且降低模式识别的效率,甚至导致“维数灾难”,因此剔除数据中的冗余特征非常必要。特征选择方法可以识别数据中具有代表性的特征,通过去除不重要的冗余特征减少数据的维数,有效地解决数据维数过高带来的问题。当数据样本没有类别标签时,有监督特征选择方法不再适用,需要研究适用于无标签数据的无监督特征选择方法,本文研究并提出两种不同类型的无监督特征选择方法,具体工作如下。第一种方法是基于正则互表示的无监督特征选择方法,其理论依据是正则回归分析理论。该方法包含三个创新点,其一是首次提出了特征互表示性质,其二是构造了新的特征选择数学模型,其三是设计了新的优化算法。所提方法首先利用特征之间的相关性,将特征选择问题建模为损失函数最小化问题,建立由Frobenius范数约束的正则回归数学模型;然后设计分治-岭回归优化算法,对特征选择数学模型进行快速优化;最后根据模型的最优解综合确定每个特征的权重,选出数据中具有代表性的特征子集。所提方法能够合理地为特征分配权重,并且具有较低的计算复杂度。第二种方法是基于聚类方差的无监督特征选择方法,其理论依据是无监督聚类学习理论。该方法包含两个创新点,其一是提出了特征聚类理论,其二是将聚类算法与方差法进行融合得到新的特征选择方法。所提方法首先对特征进行聚类,根据特征相似度对特征进行分组,相似的特征被聚在同一个簇中,不相似的特征会被聚到不同的簇中,由于相似特征提供大量的冗余信息,因此需要剔除相似特征而仅保留少数具有代表性的特征;为了使得降维后数据聚类准确率得到较好地提升,依据最大方差准则选取每个聚簇中离散程度最大的特征;最后将选出的特征组成特征子集作为特征选择结果。所提方法具有较好的数据解释能力,并且具有稳定的计算性能。将所提的两种无监督特征选择方法在标准数据集上进行实验,结果表明所提方法能够选出高维数据中具有代表性的特征子集,降低了数据冗余,提升了聚类精度,改善了数据在无监督学习场景中的表现。
其他文献
公交优先战略自20世纪60年代提出以来,主要就是为了解决小汽车带来各类问题,如何保证公交优先,专家学者总结出规划、政策、运营、技术四个方面主要建设内容。在“公交都市”
潮流计算是配电系统分析的基础工具。配电网的规划、改造和重构等都离不开配电系统潮流的稳态计算。目前,随着配电系统的结构升级,智能化水平逐渐提高,其网络参变量变得更加
经济全球化促进了集装箱海运的快速发展,同时也加剧了港口之间的竞争。泊位和岸桥作为港口重要的资源和设备,如何能够合理地对其利用,缩短船舶的在港时间,对提高港口装卸作业
作为韩国留学生,笔者深切感受到当今社会的人们时刻生活在海量的信息之中。大众传媒对年轻一代的思想修养和道德情操有重要的影响,同样也影响来华留学生的方方面面,媒介素养
降香黄檀是海南省热带珍贵乡土树种之一,随着降香黄檀人工林栽培面积不断增加,病虫害问题日益突出。我们课题组经调查发现降香黄檀黑痣病是降香黄檀苗期和幼树期的主要病害,
随着智能电网的高速发展与应用,电力线载波通信技术作为智能电网领域的重要研究方向也面临着用户规模不断扩大、通信业务复杂度逐渐提升的技术难题,传统的PLC技术已经很难通
大豆是我国重要的经济作物,其不仅具有丰富的蛋白质和油脂,还富含维生素,异黄酮等有益身体健康的微量物质,具有极高的营养价值和经济价值。然而,干旱、病害、低温、土地盐碱
前言高精度惯性仪表对材料稳定性的期望平台罗经圆度误差1 μ m,将引起3.54°/h的漂移,而设计要求仪表的精度为0.03°/h。新一代远程战略导弹的制导精度要求平台漂移
会议
目前,随着资源短缺以及环境保护力度的增大,人们对绿色储能装置的需求量越来越大,锂离子电池因其具有较高的工作电压和能量密度,成为现在新兴的储能装置。而材料LiNi0.5Mn1.5
己糖载体作为一种糖转运蛋白,主要负责己糖由胞外向胞内的运输。己糖转运蛋白具有12个跨膜螺旋结构。蛋白质的构型会在糖的转运过程中发生转化。己糖载体蛋白在动物、植物以