论文部分内容阅读
随着互联网的发展,大数据时代应运而生,而由互联网产生的海量信息中往往包含着大量不确定或不完整的信息。针对这一类不确定或不精确数据,粗糙集模型提供了很好的解决方案。而决策粗糙集模型作为传统粗糙集模型的扩展,在结合Bayes决策理论的情况下,给出了有容错能力和可解释性的粗糙集模型。属性约简作为粗糙集和决策粗糙集的研究重点,能够从海量信息中快速有效的删除冗余属性,降低数据维度,提高决策粗糙集处理不确定信息的效率。然而,现有决策粗糙集下的属性约简问题都是单目标属性约简问题,而不同的属性约简准则所获得的属性约简结果是不同的,这会在一定情况下给用户造成选择困难,还有可能获得有偏差的结果。针对这一问题,本文将多个属性约简准则相结合,提出了一种多目标优化属性约简模型,并以此模型提出了两种多目标属性约简算法,主要内容如下:第一,多目标优化属性约简模型的提出以及相应算法的设计。多目标优化问题常常被用来处理具有多个冲突或竞争目标的问题,从而得到多个目标之间的均衡结果。本文从多目标优化问题出发,结合基于正域的属性约简准则、基于决策代价的属性约简准则和基于互信息的属性约简准则,提出了多目标优化属性约简模型。同时,以传统的多目标优化算法 NSGA-II(Non-Dominated Sort in Genetic Algorithm)为框架,结合特征选择中Wrapper方法的思想,提出了多目标优化属性约简算法。实验结果验证了本文所提出的多目标优化属性约简模型的可行性以及多目标优化属性约简算法的有效性。第二,集成学习属性约简算法的设计。集成学习思想主要是在学习模型时,考虑多个学习器整合,以获得一个性能更优的学习模型。基于上面所提出的多目标优化属性约简模型,本文结合集成学习的思想,并考虑属性与属性和属性与类标之间的相关性,提出了一个集成学习属性约简算法。通过实验结果验证了本文所提出的集成学习属性约简算法的有效性。第三,基于多目标属性约简的文本分类应用。本文以中文文本为数据集,采用多目标优化属性约简算法与集成学习属性约简算法对文本数据集进行约简,并与没有进行属性约简的数据集进行了对比。实验证明了,对文本数据集进行属性约简的必要性,以及本文所提出的两种属性约简算法的有效性。本文所提出的两种属性约简算法所获得的结果可以在具有更少的属性个数的情况下,获得较高的分类准确率与较低的误分类代价。