论文部分内容阅读
大数据时代,从海量的数据中发现并提取出有价值的、潜在的知识,已成为当今数据挖掘过程中的重要任务,建立高效的分类模型,进行信息的规范化处理,是数据挖掘过程中重要的研究方向之一。在对数据进行挖掘的过程中,分类是较为基础的分析手段。传统的分类模型通常追求更高的分类准确性,同时忽略错误分类成本,但在实际问题中,决策风险往往存在且不尽相同,人们在做出相应决策时普遍期望误分类风险最小。三支决策作为一种分类模型,通过引入最小风险代价,将暂时无法决策的对象划分到边界域中,这种分类思想符合人类认知规律且具有一定的误分类容忍机制。研究如何将三支决策方法应用到数据挖掘分类任务中,对当前大数据的处理和应用具有一定的实际意义。针对三支决策在分类任务中,边界域包含信息不足、难以进行有效的划分,本研究基于三支决策思想,设计了三支决策的二阶段分类相关模型和算法,进一步增强边界域数据的划分能力,并提高分类精度。主要研究内容如下:(1)针对三支决策分类任务中,边界域分类样本数目较少且信息缺失,导致分类精度不高的问题,提出一种基于二阶段的三支决策边界域分类模型TWD-TP。在第一阶段,考虑到误分类代价影响,通过贝叶斯规则构建三支决策中样本的条件概率,然后求解最优化损失函数得到所需阈值,并按照三支决策规则对数据集进行划分,划分过程基于最小风险Bayes决策理论,划分后的正域、负域中包含一定量的误分类数据。在第二阶段,通过类别标签索引分别将正域、负域中误分样本作为增量信息引入边界域,增加边界域中的分类信息,并对边界域进行重构,最后采用分类器对重构边界域进行分类验证。实验结果表明:提出的TWD-TP模型不仅能在三支决策分类中筛选出高误分类特性的样本,同时重构边界域中之前不能被正确划分的样本得到有效划分,分类精度进一步提高。(2)三支决策在分类过程中,由于边界域包含分类信息不足,致使分类器难以进行有效训练,针对该问题,提出一种基于三支决策的边界域Bagging集成方法。该方法分两个阶段完成,第一阶段,根据三支决策贝叶斯规则对数据集进行三支划分,得到正域、负域和边界域。第二阶段,通过对边界域样本自助采样,训练出数个具有一定分类能力的基学习器,然后采用Bagging方法对各个基学习器进行集成结合,在投票阶段,对各个基学习器进行概率加权,最后输出投票结果。实验结果表明,所提算法能对边界域样本进行有效划分,提升三支决策模型的分类准确度。