基于蒙特卡洛神经网络算法的不平衡数据分类研究

来源 :兰州大学 | 被引量 : 4次 | 上传用户:JSLDYY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类算法广泛应用于模式识别、预测等领域,在传统的分类问题研究中,通常基于如下假设:(1)不同类别的样本数量大致相同;(2)不同类别的误分类代价大致相同。在实际应用中,上面2个假设往往不成立,得到的数据通常是不平衡数据。在这种情况下,使用传统的分类算法分类不平衡数据就达不到期望的效果,特别是少数类样本的识别率比较低,但在实际应用中少数类样本如入侵行为、癌症患者等是非常重要的数据,识别率要求很高。从近10年发表关于不平衡数据分类的机器学习国际顶级会议上的论文来看,不平衡数据分类越来越受到研究者的重视。虽然研究者提出了采样算法、代价敏感算法、特征选择等算法来试图解决不平衡分类中的问题,但是过拟合、类别不均衡、特征冗余问题仍然比较严重,故研究不平衡数据的分类问题具有重要的现实意义。本文主要从数据、算法、特征3个层面研究基于蒙特卡洛神经网络的不平衡数据分类算法。具体内容如下:(1)针对传统分类算法在不平衡分类中存在的过拟合问题,采用蒙特卡洛神经网络算法(Monte Carlo Neural Network Algorithm,MCNNA)进行了研究,蒙特卡洛神经网络算法以经验风险最小化、结构风险最小化和设计风险最小化策略来指导蒙特卡洛神经网络算法的训练从而改善过拟合。另外,蒙特卡洛神经网络算法通过选择更多的隐藏层节点提高了算法的精度。通常情况下,隐藏层节点增加到输入节点的10倍后算法精度不再增加。通过在网络钓鱼数据集上的实验验证了蒙特卡洛神经网络算法相对于传统的分类算法在改善过拟合方面效果更佳。与朴素贝叶斯、K近邻、逻辑回归、决策树、线性支持向量机、径向基支持向量、线性判别分析等七个算法进行对比实验,相比于朴素贝叶斯算法,蒙特卡洛神经网络算法在整体识别率上提高6.48%,在真正类率上提高6.78%,在假正类率上降低6.25%,总体而言,蒙特卡洛神经网络算法相对于其他7种分类算法在多个指标上性能较好。(2)针对不平衡分类的类别不均衡及特征冗余问题,提出了基于蒙特卡洛神经网络的混合过采样特征选择算法——NBG(Negative Binary General)算法。NBG算法通过过采样算法选取少数类样本及其最近的多数类样本来生成有效的样本改善类别不均衡问题,通过二进制蚁狮算法提取关键特征去除冗余特征,采用蒙特卡洛神经网络算法作为分类算法改善过拟合。分别在7个不平衡数据集上进行了分类实验,与传统的分类算法相比,NBG算法能够更有效地去除冗余特征、改善类别不均衡性,在少数类样本的分类性能上更优。其中,在数据集breast_tissue、bupa、cleveland、ecoli01VS235、glass4、wisconsin、glass6上,相比于蒙特卡洛神经网络算法,NBG算法在少数类识别率上分别提高62.5%、17.24%、66.67%、24%、33.33%、4.17%、33.33%。(3)针对传统的分类算法对于不同类别的样本采用相同的误分类代价,导致少数类识别率不高的问题,提出了CSMCA(Cost Sensitive Monte Carlo Adaptation)算法。CSMCA算法通过二进制蚁狮算法选择少数类的代价参数和提取关键特征来优化蒙特卡洛神经网络算法从而解决不平衡数据分类中代价参数选择和特征冗余的问题。分别在7个不平衡数据集上进行了分类实验,与传统的分类算法相比,CSMCA算法选择的代价参数更有效,整体分类性能更好,且能显著提高少数类样本的分类性能。其中,在数据集breast_tissue、bupa、cleveland、ecoli01VS235、glass4、wisconsin、glass6上,相比于蒙特卡洛神经网络算法,CSMCA算法在少数类识别率上分别提高62.5%、17.24%、66.67%、28%、33.3%、4.17%、33.33%。(4)针对高维小样本不平衡分类中存在类别不均衡、特征冗余和过拟合问题,通过结合过滤型特征选择算法和包装型特征选择算法提出了UIN(Union Information Negative)算法和UIC(Union Information Cost)算法。UIN算法和UIC算法都是通过对信息增益和基尼指数进行并集提取有效特征,不同之处在于UIN算法采用NBG算法作为包装型特征选择算法改善类别不均衡和过拟合问题,UIC算法采用CSMCA算法作为包装型特征选择算法改善类别不均衡和过拟合问题。将UIN算法和UIC算法在7个高维小样本不平衡的基因数据集上进行了分类实验,结果表明UIN算法和UIC算法能够很好地改善类别不均衡,降低过拟合带来的负面影响,有效地提取关键特征,在7个基因数据集上UIN算法和UIC算法的整体识别率和少数类识别率都是1,优于传统的分类算法。
其他文献
随着情绪对学习记忆能力影响的研究越来越多,负性情绪对学习记忆能力的影响也成为脑科学、心理学和精神病学研究的重点。加强对负性情绪与学习记忆能力之间关系的研究,对揭示
小流量、高频次滴灌是一种新的低压滴灌技术,它能使作物始终处在最适宜的土壤水分区间内,按照作物需水规律,及时适量的补充水分消耗,水分供给过程与作物需水规律更加吻合,从
表面完整性对航空发动机关键构件的服役寿命和可靠性具有重要作用。目前,我国已突破航空发动机构件多轴精密切削精度控制技术,但关于表面完整性控制相关基础研究还很薄弱。表
玻璃窑制吊烧技术是窑制玻璃艺术制作方式之一,其制作工艺程序复杂,表现手法丰富,艺术效果也是丰富多变。相比其它窑制技法,玻璃吊烧技术的视觉艺术效果独具一格且魅力十足。作者在校期间主要进行了此技法的窑炉温度控制和不同颜色下的玻璃艺术造型对比实验的探究,如吊烧方式、玻璃质量大小、温度曲线、模具烧制高度、模具洞孔大小等对比实验研究,实验数据的记录和分析。当下,越来越多的艺术家趋向于广泛地使用成型技术,突破
文学经典问题一直是学界讨论的热点,耶鲁大学教授哈罗德·布鲁姆在其著作《西方正典》中提出了他的正典观。布鲁姆认为当今传统文学的发展方向面临被音像化产品取代的危机,他坚持文学精英化的立场,呼吁传统正典的回归。在文学生态学的角度看来,正典作为文学的典型,文学创作的方向,是影响文学生态学循环发展的重要因素。正典本身也具有文学生态学特征,因此正典并不是一个一成不变的概念,它的创作和遴选也受外界和文学自身的支
金属材料广泛运用在国防工业和民用工程中,了解金属结构在强载荷作用下的响应和破坏对武器和防护结构的设计和安全评估有着重要的意义。为了研究金属材料在大变形、高应变率
作为谷物中营养与人气“双收”的燕麦,吃法自然少不了。除了常见的做成牛奶燕麦粥、八宝粥、酸奶燕麦杯等方式,燕麦的“打开”姿势其实还有很多,每一款都是时尚又不失健康的
本研究创新性地开发了一条合成β-甲基戊二酸单甲酯的新路线。β-甲基戊二酸与甲醇酯化得β-甲基戊二酸双甲酯(3),再利用氢氧化钡对酯的温和碱解反应,借助双官能团相互作用的
随着我国教育事业进入全面大改革阶段,社会对于小学数学教学越来越重视,所以小学数学的改革已是迫在眉睫.本文通过对愉快教学的基本意义、愉快教学的特征及小学数学教学现状
当前,房地产行业在我国国民经济中占有的地位越来越重要,从行业对GDP的贡献能够显现。城市是房地产市场的载体,房地产市场是城市的重要标志与内容。房地产市场是城市竞争力的