论文部分内容阅读
数据挖掘研究常用高维数据描述数据的特征。由于各种原因,例如数据多样性等,高维数据常含有无关、冗余属性。这些无关、冗余属性通常增加储存空间和计算时间,而且易导致维灾难等问题,最终降低数据挖掘的效率。属性约简通过降低属性的维数从高维数据中选出重要属性,已被显示除了解决以上问题,还能提高分类器的性能,在数据挖掘领域已经得到了广泛的应用。现有的属性约简方法包括属性选择和子空间学习两类。属性选择在保证原始结构的前提下选择相关属性子集。子空间学习把原始数据从高维度空间投影到低维度空间,保持数据相关结构,同时能去除离群样本和无关属性。总之,属性选择比子空间学习更具有解释性,而子空间学习比属性选择更具稳定性。本文融合属性选择和子空间学习到同一个模型,针对高维数据秩由于噪音影响升高等特点,合理考虑低秩表示和稀疏重构方法选取代表性的属性子集,并应用于单视图数据和多视图数据的分类研究和回归预测等应用。论文的主要内容和创新点为:(1)基于自表达方法在分类方面具有良好效果,本文结合属性自表达、低秩稀疏等技术,提出了一种单视图数据的无监督属性约简模型——自表达的低秩属性约简算法(RS_FS算法)。RS_FS算法利用低秩约束和稀疏学习,把单视图无监督分类转成监督分类问题。具体地,RS_FS算法首先假设无监督数据含有潜在的类标签,即通过K-均值聚类方法得到类标签指示向量;然后利用属性自表达方法充分考虑不同属性间的自相似关系得到属性自表达矩阵;并在目标函数中对已得到的重构系数矩阵做稀疏处理。在得到的目标函数中,子空间学习方法保持数据间的全局结构使得在稀疏处理时确保最相关的若干样本不被稀疏处理;低秩表示针对重构系数矩阵进行低秩约束并按重要性大小选取前r个特征值对应的特征向量。通过跟对比算法在公开数据集的实验比较,RS_FS对数据分类比对比算法有好的效果。(2)数据的多样性导致多视图数据应运而生,论文提出了一种基于低秩稀疏的属性约简算法(SLR_FS)。SLR_FS算法首先对每个视图数据进行重构获取单视图重构系数矩阵;然后利用稀疏重构技术对每个视图重构系数矩阵进行稀疏处理,去除相应的噪声样本和冗余属性;接着利用低秩表示处理不同视图之间相关性并保持不同视图数据间的全局数据结构,并对得到的每个视图稀疏重构系数矩阵进行线性联合。最后,结合子空间算法进一步调整得到的重构系数矩阵。经与对比算法进行的实验验证,SLR_FS算法在各种评价指标上均取得了很好的回归效果。本论文主要针对不同类型的高维数据(包括多视图数据和单视图数据),分析并设计了新颖的属性约简算法。具体地,本文以低秩表示理论和稀疏重构方法为核心技术,并针对单视图数据和多视图数据的特点及数据结构,结合相关技术,提出代表性的属性子集。同时,为验证提出新算法的实效性,论文中所有算法均在同一个实验环境进行验证和分析。而且本文结合分类和回归作为实验的检验途径,并对每种途径选取了三种评价指标。在各类实验结果和评价指标方面,本文论文提出的新算法均优于选取的现有算法。在未来的工作中,本人将考虑运用深度学习对提出的属性约简算法进行进一步的优化。