论文部分内容阅读
信息技术的高速发展催生了大数据时代,人类生产生活的各个领域数据海量增长。数据特征的高维性是大数据的重要特性之一,给数据挖掘带来了严峻挑战,特征选择和特征抽取是数据降维的两种主要途径。与特征抽取相比,特征选择可以保持数据表示维度的原始语义,有利于数据挖掘结果的解释。粗糙集理论是特征选择的有力工具。邻域粗糙集是经典粗糙集模型的重要拓展之一,适宜于在距离空间中表示的高维数据特征选择。针对数值型数据,本文将极大相容块概念与邻域粗糙集相结合,建立了一种极大相容块邻域粗糙集模型,并将模型分别应用于单标记特征选择和多标记特征选择问题上,设计了相应的特征选择算法。论文的研究内容和结论如下:(1)基于极大相容块邻域粗糙集的单标记特征选择方法现有的邻域粗糙集模型仅关注那些邻域中所有样本都属于同一个决策类的一致性情形,无法利用邻域中与多个决策类相交的边界样本所蕴含的信息。针对这一局限性,将相容关系的极大相容块与邻域粗糙集相结合,选取样本邻域内的最大等价块作为最小的信息粒,通过重新定义邻域粗糙集的上下近似和属性重要度等概念,建立了极大相容块邻域粗糙集模型。该模型可在更小的信息粒度下将原来边界样本转化成一致性样本来增大正域。运用前向贪婪策略提出了相应的单标记特征选择算法。在7个公开的UCI数据集上的对比实验验证了提出方法的有效性。(2)基于极大相容块邻域粗糙集的多标记特征选择方法不同于单标记数据,多标记数据的每个样本可能有多个标记。从数据的粒化角度看,多标记学习的样本在决策属性空间进行粒化的问题复杂度较高。使用等价关系进行粒化,容易导致等价类的种类较多和类内样本较少,粒化效果差,导致多标记粗糙集模型效果不佳。为此,本文从标记角度对样本在决策属性空间进行粒化,定义了新的上近似和下近似等概念,建立了新的粗糙集模型,并利用前向贪婪策略提出了多标记特征选择算法。在5个公开的mulan多标记数据集上进行了对比实验,验证了提出算法的有效性。