论文部分内容阅读
随着人工智能和大数据产业的发展,人类社会的各个领域都积累了大量的高维数据,如何有效地进行高维数据挖掘成为了迫在眉睫的问题。为了提高高维数据挖掘中各类算法的性能和效率,我们必须对高维数据做属性约简预处理。因此,属性约简领域很自然地取得了巨大的发展,并受到了广泛的关注。一般地,属性约简方法包括属性选择和子空间学习。属性选择通常是通过一些特定的模型从数据中提取一些必要的属性,从而达到减少数据维度的目的。子空间学习是通过投影矩阵将高维数据投影到低维空间,以此来保持数据之间的关联结构。总之,属性选择比子空间学习更具解释性,而子空间学习比属性选择更具稳定性。本文结合以上两种属性约简方法,针对高维数据中存在较多离群点等特点,合理地利用属性自表达来缓解离群点的影响,并根据低秩表示和稀疏表示技术来进一步地去除噪声的干扰,选出最具代表性的属性子集,最后用于文本和人脸数据的分类研究中。本文的核心内容和原创点为:(1)由于属性自表达在建模时具有良好的特性,本文同时结合低秩、超图等相关技术,提出了一种无监督属性选择算法——基于属性自表达的低秩超图属性选择算法(BHSLR_FS算法)。具体地,BHSLR_FS算法首先利用属性自表达特点用其他属性稀疏地表达每个属性,此自表达形式使用低秩假设寻找高维数据的低秩表示,然后建立超图正则化因子保持高维数据的局部结构,最后利用稀疏正则化因子进行属性选择。属性自表达特性确定属性的重要性,低秩表示相当于考虑数据的全局信息进行子空间学习,超图正则化因子考虑数据的局部结构对数据进行子空间学习。该算法实际上考虑数据全局和局部信息进行子空间学习,更是一种嵌入了子空间学习的属性选择算法。通过跟对比算法在六个真实数据集上的实验比较,BHSLR_FS对数据进行属性选择后,比对比算法拥有更强的分类性能。(2)由于结构化学习能够提供补充信息,增强属性选择的效果,论文设计了一种结合局部结构学习和稀疏学习的无监督属性选择算法(LSS_FS)。LSS_FS算法首先利用属性自表达建模。接着,根据样本间的相似性来动态地调节自表达系数矩阵使其达到最优。然后,利用低秩表示来考虑数据的全局流形结构。最后,结合稀疏学习进行属性选择。实验结果表明,LSS_FS算法相比其它对比算法,能更有效地选取属性,并能取得很好的分类效果。本论文主要针对各式各样的高维数据(包括文本数据和人脸数据等),设计了新奇的属性约简算法。具体地,本文以属性自表达和低秩表示为核心技术,并针对不同类型的数据结构,结合相关技术,筛选出代表性的属性子集。同时,为了保证实验的公平性,论文中全部算法均在特定实验设置下,进行验证和分析。而且本文以分类效果来验证属选的效果,同时利用三个评价指标来验证提出的算法的性能,在多个公开数据集上的实验结果表明,本文提出的新算法在鲁棒性和属选性能方面均强于所有的对比算法。在未来的科研工作中,本人将考虑融合深度学习等相关技术,来进一步地优化和提升提出的属性约简算法的性能。