论文部分内容阅读
在数据挖掘中要面对三大挑战性问题:挖掘方法、挖掘对象和挖掘约束,分类问题是三大挑战中的挖掘方法问题。早期的分类的效果一般以准确率为标准,但近来专家认为不同的误分类所带来的损失是不相同的,认为分类的效果应以误分类代价减少的多少为衡量标准。比如,把一真正有病的病人误诊为健康人所要付出的代价就比把一健康的病人诊断为有病所要付出的代价大。这样,以误分类代价减少的多少为衡量标准成为分类研究的热门问题。比如[4]提出了基于代价敏感的分类算法;[1]提出了最小化测试代价和误分类代价的算法和[2]提出了不同代价尺度的代价敏感算法。代价敏感的学习(Cost-Sensitive Learning,CSL)是一种以误分类代价最小为衡量标准的机器学习方法。CSL借用分类学习和平衡代价的决策理论(比如用决策树、贝叶斯分类器等决策思想),其目标是代价敏感的、追求代价最小化。代价敏感学习最早用于解决医疗诊断系统的需求。在医疗诊断中,对于一个不能很确切地进行诊断的病人,就有可能发生两种错误,即无病实例判断为有病(即“取伪”,在CSL中被称为FP(False Positive))或有病实例判定为无病(即“弃真”,在CSL中为FN(False Negative))。在以往的代价敏感分类学习中,多数专家都对这一错误代价即误分类代价进行研究,并且认为违反这两种错误FP和FN的代价是应该受到相同的惩罚。本文的模型是建立在多维约束下的代价敏感学习。本文首先介绍机器学习的主要研究领域,并分析目前国内外关于代价敏感学习的理论与方法,指出现有的代价敏感学习方法的优点与不足。针对不足之处,提出了新的方法,并通过实验证明本文提出的方法的有效性和可行性。本文的主要研究内容如下:(1)简述代价敏感学习(CSL)现有的方法,分析其优缺点。同时也介绍了与代价敏感学习密切相关的代价约束的概念和基本方法。(2)提出多维约束下的代价敏感学习的新方法。本文改变了前人将代价敏感学习中各种代价用同一代价尺度来衡量的习惯做法,取而代之用不同的代价尺度来衡量不同类型的代价。另外,获取训练实例需要代价且训练阶段存在多维约束。(3)构造多维约束条件代价敏感分类器,并将多个单一多维约束分类器综合进行集成学习。通过若干个单一多维约束分类器进行集成学习,然后将这些多维约束分类器进行结合,得到比单个多维约束分类器更强泛化能力的多维约束集成分类器。最后通过真实数据集的实验证明所建模型的可行性。本论文的主要创新点如下:(1)在同一分类器中同时考虑了测试代价约束、等待代价约束、误分类代价约束等多维尺度;(2)尝试用集成学习的方法来构造分类器,可以综合各个分类器的优点,使分类结果达到尽可能优化。