基于eEP的稀有类分类问题研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:hongjiansu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问题的专用算法不多。 本文主要研究基于eEP的稀有类分类问题。eEP是一种最具表达能力的、特殊的EP,称为基本显露模式。它不仅具有显露模式的优点,可以用来构造准确的分类器,而且数量比显露模式少很多,可以快速方便地挖掘和使用。 集成学习方法是从机器学习领域逐渐发展起来的用于提升弱分类器分类准确率的技术,被认为是近十年来提出的最有效的学习思想之一。与单个算法相比,集成学习不容易出现过适应现象。 本文把Bagging技术引入稀有类分类这一极具挑战性的领域,并采用基于eEP的分类器作为集成学习的基分类器进行分类。通过“分组自助抽样”及不同的加权投票策略的分析,本文详细研究了Bagging技术在稀有类分类上的应用。同时提出了若干稀有类分类的高效集成学习算法。 本文研究工作的主要创新点有: 使用eEP来分类稀有类。改进了基于eEP的单分类器算法CEEP,使之更适合对稀有类进行分类。从而形成了新算法eEPRC,它更加侧重稀有目标类的分类性能。 应用集成学习方法Bagging技术来提高稀有类分类性能。提出两个新的稀有类分类算法VeEPRC和BeEPRC,他们分别采用bootstrap自助抽样和“分组自助抽样”产生多个自助样本集。 针对BeEPRC集成学习算法,进一步采用两种不同的加权投票策略进行分析,即按分类准确率加权的BeEPRCA算法和按稀有类分类的F-度量进行加权的BeEPRCF算法。最终选用分类性能较好的BeEPRCF作为本文的代表算法与其它经典分类算法进行详细分析比较。 通过对稀有类分类问题的研究与实践,本文从中探索了一些可行的规律,在一定程度上提高了稀有类分类性能并同时保持总体分类准确率在较高范围内。这为稀有类问题研究提出了一种新的视角,同时为进一步的研究工作提供了丰富的实验数据。
其他文献
乳化液是液压支架和液压支柱的传动介质,在液压系统中起血液作用。《煤矿安全规程》规定乳化液的浓度一般在3%~5%之间。浓度过低,会大大缩短设备使用寿命,容易引起液压系统事
在当今社会中,公共安全已经成为国家、社会、各级政府工作关心的重点,同时也是日常工作中的重中之重。当公共安全事件突发时,突发事件现场的实时情况,上级指挥部门和政府对各相关部门和下级单位传达的应急命令必须在第一时间送达。针对突发的公共安全信息下达的命令和应急措施是否能快速、及时、准确的送达到下级的相关部门,是迅速处理和控制突发的公共安全事件的关键。如果在突发的公共安全事件中,事件的相关及时信息和应急预
随着网络的普及以及电子商务和电子政务的蓬勃兴起,安全协议变得越来越重要,确保安全协议的安全性已经成为一项重要的研究课题。安全协议分析是一个很难解决的问题,20年来为
随着通信技术的飞速发展和互联网的日益普及,IP网络开始承载更加丰富的网络应用服务。传统的“best-effort”的服务方式已经不能满足许多网络业务的要求,对互联网服务质量保
粗糙集理论是一种处理不确定知识的有力工具,在各领域已得到了广泛应用。本文的研究工作主要集中在粗糙集应用过程中数据预处理和决策表约简两个方面,围绕当前存在的问题,对
WebGIS是一种结合了WWW技术和传统地理信息系统的全新的技术,近年来迅速成为GIS发展的最重要的方向之一,并在很多领域都得到了广泛的应用。“基于WebGIS的防汛信息服务系统”
本文讨论用间断Galerkin方法对一维和二维浅水方程进行求解的问题。对使用间断Galerkin方法求解浅水方程中所涉及到的过程及方法作了比较详细地说明。 在四叉树网格的基础
伴随着网络的发展,安全问题日益突出。传统的安全手段已经不能满足现代网络安全的发展要求,以防火墙为代表的被动防御措施已经不合时宜。作为第二道防线的入侵检测系统,以其主动
实时数据库根本目标就是使满足截止时间的事物数量为最大,因而管理和支持优先考虑时间的事务处理是非常重要的。然而,随着实时计算迅速发展,安全和时态一致性就成了许多实时
本文分析了目前安全评估技术中常用的信息探测技术、弱点检测技术和计算机网络安全模型,提出了一种用于分析潜在攻击路径的网络安全性分析模型,进而给出了基于本模型的网络