多维约束下代价敏感集成分类器的研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户：qq11202365

【摘要】

：

在数据挖掘中要面对三大挑战性问题:挖掘方法、挖掘对象和挖掘约束,分类问题是三大挑战中的挖掘方法问题。早期的分类的效果一般以准确率为标准,但近来专家认为不同的误分类

【作者】

：

张晨

【机构】

：

广西师范大学

【出处】

：

广西师范大学

【发表日期】

：

2009年期

【关键词】

：

多维约束代价敏感集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在数据挖掘中要面对三大挑战性问题:挖掘方法、挖掘对象和挖掘约束,分类问题是三大挑战中的挖掘方法问题。早期的分类的效果一般以准确率为标准,但近来专家认为不同的误分类所带来的损失是不相同的,认为分类的效果应以误分类代价减少的多少为衡量标准。比如,把一真正有病的病人误诊为健康人所要付出的代价就比把一健康的病人诊断为有病所要付出的代价大。这样,以误分类代价减少的多少为衡量标准成为分类研究的热门问题。比如[4]提出了基于代价敏感的分类算法;[1]提出了最小化测试代价和误分类代价的算法和[2]提出了不同代价尺度的代价敏感算法。代价敏感的学习(Cost-Sensitive Learning,CSL)是一种以误分类代价最小为衡量标准的机器学习方法。CSL借用分类学习和平衡代价的决策理论(比如用决策树、贝叶斯分类器等决策思想),其目标是代价敏感的、追求代价最小化。代价敏感学习最早用于解决医疗诊断系统的需求。在医疗诊断中,对于一个不能很确切地进行诊断的病人,就有可能发生两种错误,即无病实例判断为有病(即“取伪”,在CSL中被称为FP(False Positive))或有病实例判定为无病(即“弃真”,在CSL中为FN(False Negative))。在以往的代价敏感分类学习中,多数专家都对这一错误代价即误分类代价进行研究,并且认为违反这两种错误FP和FN的代价是应该受到相同的惩罚。本文的模型是建立在多维约束下的代价敏感学习。本文首先介绍机器学习的主要研究领域,并分析目前国内外关于代价敏感学习的理论与方法,指出现有的代价敏感学习方法的优点与不足。针对不足之处,提出了新的方法,并通过实验证明本文提出的方法的有效性和可行性。本文的主要研究内容如下:(1)简述代价敏感学习(CSL)现有的方法,分析其优缺点。同时也介绍了与代价敏感学习密切相关的代价约束的概念和基本方法。(2)提出多维约束下的代价敏感学习的新方法。本文改变了前人将代价敏感学习中各种代价用同一代价尺度来衡量的习惯做法,取而代之用不同的代价尺度来衡量不同类型的代价。另外,获取训练实例需要代价且训练阶段存在多维约束。(3)构造多维约束条件代价敏感分类器,并将多个单一多维约束分类器综合进行集成学习。通过若干个单一多维约束分类器进行集成学习,然后将这些多维约束分类器进行结合,得到比单个多维约束分类器更强泛化能力的多维约束集成分类器。最后通过真实数据集的实验证明所建模型的可行性。本论文的主要创新点如下:(1)在同一分类器中同时考虑了测试代价约束、等待代价约束、误分类代价约束等多维尺度;(2)尝试用集成学习的方法来构造分类器,可以综合各个分类器的优点,使分类结果达到尽可能优化。

其他文献

基于SIP的IP视频电话设计

随着因特网技术、分组交换技术和音视频压缩技术的发展，两大网络即语音网络和数据网络出现了融合的趋势，便产生了VoIP网络电话。现在，VoIP已经占有相当比重的市场份额，成为当今电

学位

多媒体通信视频电话信令控制通信协议

图像分割中一种多层次自适应的算法研究

随着21世纪的到来,计算机技术的发展更加迅猛,计算机的相关技术在各行各业的应用也更加广泛。在数字图像处理方面,人们越来越多地利用计算机来帮助人类获取与处理视觉图像信

学位

图像分割算法边界线边缘检测多层次自适应

基于PCI总线的多串口通讯卡的研究与实现

多串口数据通讯是计算机应用方向的一个重要分支,主要研究的是数据的多串口采集,存储和处理。基于PCI总线技术的多串口数据通讯卡,一直是市场追求的热点。在总线技术中,PCI局

学位

多串口PCI总线PCI9052WDMDriverStudioLinux

基于词网语言模型的连续语音识别系统的研究与实现

随着计算科学和信息技术的发展,语音识别日渐成为人与机器交互的主要工具。经过几十年的研究和发展,语音识别技术已日渐成熟并逐渐走向实用,正在渐渐地改变着人们的生活方式

学位

语音识别静音检测似然率计算

负载平衡的LEACH路由算法的研究

传感器、嵌入式计算、网络和无线通信四大技术孕育了无线传感器网络。它是一种新型的无基础设施的无线网络，能够协作地实时监测、感知采集各种环境或监测对象的信息，并对其进行

学位

无线传感器网络负载平衡LEACH路由算法通信协议

基于运动想象的脑机接口的研究与设计

脑机接口(Brain Computer Interface,以下简称BCI)研究的是在大脑与外部设备之间建立新的通信通道,进行信息传递。这项技术在上世纪九十年代起步,2000年后逐渐成为研究热点。

学位

脑电信号脑机接口运动想象生物智能

智能网络入侵检测方法的研究

随着计算机网络的快速发展,计算机系统受到网络入侵的风险日益加大,网络安全已成为不容忽视的问题,入侵检测逐渐成为近年来的研究热点。作为入侵检测主要方法之一的异常检测,

学位

网络入侵检测粗糙集离散粒子群优化算法支持向量机

基于特征子空间的质谱数据分析

蛋白质谱数据技术的出现使一次获得大量生物信息成为现实,也为癌症早期的预测和诊断提供了高效、快速、简单的新方法。但是在蛋白质谱数据分析中,大量质谱特征被用来表现蛋白

学位

癌蛋白质谱数据特征提取独立成分分析类信息

不完备信息系统的属性约简及规则提取的研究

经典粗糙集理论主要是利用论域上的等价关系对完备信息系统进行属性约简及规则提取的研究。但在现实中,往往某些数据由于种种原因难以获取或者说获取的成本过高,此时建立在等

学位

粗糙集不完备信息系统概率等价关系属性约简规则提取

井下锚杆测距仪的开发与研究

随着现代科学技术的迅猛发展和生产水平的提高,各种监测技术已越来越广泛地应用于各种工程领域和科研中,测试技术水平的高低越来越成为衡量国家科技现代化的重要标志之一。井

学位

锚杆无损监测振动声透法浮点放大技术

多维约束下代价敏感集成分类器的研究

其他学术论文