不平衡数据学习的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xiaoxiang0122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先阐述不平衡数据学习的研究背景、现状和相关工作,以及模型评估与模型选择相关工作等。然后,围绕不平衡数据学习的解决策略,开展一系列研究工作,从不同角度探讨与不平衡数据学习相关的问题。本文研究内容和主要贡献包括以下几个方面:(1)提出一种基于Boosting技术和过采样技术融合的不平衡数据学习算法PCBoost。PCBoost算法分为权值初始化、数据合成、子分类器学习、子分类器集成学习等四个阶段。提出一种新的数据合成方法,在数据合成后训练子分类器,被子分类器错分的合成样例将被删除,从而起到扰动修正的作用。讨论并证明了PCBoost算法权值更新的规范性以及误差界和参数选择问题。与SMOTEBoost、DataBoost-IM等算法实验比较结果表明,PCBoost有处理不平衡数据的优势。(2)提出基于欠采样的不平衡数据分类算法。不平衡数据分类的关键在于有效地寻找分类边界,而只有处于边界附近的样例才对分类边界的寻找有贡献,基于上述思想,提出基于欠采样的不平衡数据分类算法。定义δ可去概念,判断多数类样例是否远离分类边界,并基于此对多数类样例进行欠采样,然后在欠采样数据集上训练分类器。(3)针对不平衡数据分类器评估,提出关注少数类准确度的性能评估度量加权AUC——wAUC。模型评估是数据挖掘的重要步骤,合理的性能评估度量能够保证选择最优的分类器,对于不平衡数据学习,其性能评估度量应关注少数类上的准确度,wAUC以真正率为积分变量,对ROC曲线下方面积加权,使得wAUC更加偏置于在少数类上取得更佳性能的分类器。(4)提出基于层次分析法构造多种度量或多种方法综合评价的模型选择框架。不同性能评估方法和度量侧重不同方面,因此,选择分类器的结果不尽相同。基于层次分析法的模型选择框架,集成多种性能评估方法和度量,综合考虑分类器在各个性能评估方法和度量下的性能指标,给出集成结果。这种基于层次分析法的模型选择框架参数是可调整的。本文针对不平衡数据分类问题,在过采样、欠采样、集成学习和模型评估等方面展开研究工作,分别取得相应研究成果,公开发表了相关论文。
其他文献
在阅读教学中,引导学生合理展开想象,进行多角度有创意的阅读,有利于拓展思维空间,提高阅读质量。引导学生进入想象世界的切入点有很多,笔者从走进人物的心灵、走进诗中的画
现代设计不断发展进步,信息技术在社会岗位中的应用范围逐渐扩大化。在开展项目工程管理阶段,如果一味的应用传统管理模式,就很难适应现代社会发展需要,将项目管理阶段存在的
为了明确甘肃冬小麦品种(系)中品质相关基因的分布状况,提高品质育种效率,以141份小麦品种(系)为材料,利用高分子量麦谷蛋白亚基1Dx5的特异PCR标记、与黄色素含量相关的八氢
随着我国国民经济的发展方式向调整优化结构、注重效益环保、提升产业层次政策的转变,铸造行业的转型跨越发展也势在必然,基于循环经济模式的绿色、环保、节能型铸造企业将是今
<正> 王静安主任医师,临证50余年,学验俱丰,余有幸随其左右,兹将其临证运用鲜药治疗小儿疾病的经验介绍于后: 一、泥秋串10g,车前草30g,熬水作茶饮。功效:消积化湿,健脾和胃
随着矿井开采时间的增长,开采深度的增加,许多单一灾害的矿井正慢慢转变成复合型灾害矿井。同时受到地质条件的制约、减灾抗灾实际的需要及矿井生产接续紧张的影响,少部分工
"仁"是孔子思想体系的核心。他的慈善思想是以"仁"为中心构建的,包括"泛爱众"、"惠民"、"均贫富"和义利观等内容,对历代以来中国慈善事业的发展具有深远影响。
随着我国社会技术水平的不断提升,人工智能技术在社会各行各业得到广泛的应用与推广。虽然说我国人工智能技术还正处于不断发展的阶段,但是已经表现出相当强的使用价值,对于
日新月异变化的今天,除了人们生活水平的逐渐提高外,国家对于交通设施方面的投资力度也在不断加大,让交通设施更加现代化、科学化,出行变得更为便利、舒适和安全,而作为交通
目的探讨影响儿童呼吸道合胞病毒相关性急性下呼吸道感染的危险因素。方法选取2015年1月至2017年6月我院收治的急性下呼吸道感染患儿229例,分析呼吸道合胞病毒相关性急性下呼