【摘 要】
:
随着大数据时代的来临,机器学习作为现代数据分析技术的理论基石,发挥了至关重要的作用,同时也面临着大大小小的挑战。分类问题作为机器学习领域最基本最核心的问题之一,持续
论文部分内容阅读
随着大数据时代的来临,机器学习作为现代数据分析技术的理论基石,发挥了至关重要的作用,同时也面临着大大小小的挑战。分类问题作为机器学习领域最基本最核心的问题之一,持续受到学术界的热切关注。传统的分类算法一般基于两个假设:一是不同类别的样本数量大致相同;二是不同类别的错分代价基本相等。然而在真实世界中,数据集往往存在类别不平衡问题和代价敏感问题,这使得基于准确率的传统分类算法变得不再适用。类别不平衡指的是不同类别的样本数量分布不平衡;代价敏感指的是不同类别的错误分类代价相差很大。在类别不平衡的数据集中,传统分类算法为了获得较高准确率,倾向于错分少数类样本,然而这些少数类样本往往更加重要;在代价敏感的数据集中,传统分类算法对错误分类代价不敏感,无法最小化错误分类总代价。由于类别不平衡问题和代价敏感问题在现实中的普遍性和重要性,国内外学术界对此展开了广泛而深入的研究,并提出了各种各样的解决方法。经过归纳总结,这些方法大致从两个层面来解决问题:一是从数据层面,通过重构训练集改变样本分布,典型的是采用重采样技术;二是从算法层面,通过重新设计现有算法使之适应这两个问题,典型的是代价敏感学习和基于Boosing的方法。在这些方法中,集成学习扮演了举足轻重的角色。经过十几年的研究,该领域已经取得了十分瞩目的成就,但是仍然存在一些问题,比如过拟合,丢失信息等,影响了分类模型的稳定性和可靠性。本文针对类别不平衡问题和代价敏感问题,做了以下两点工作:·提出两种基于重采样的集成分类方法:xEnsemble和RSEnsemble。首先介绍这两种方法的理论基石,然后对现有算法进行改进,最后分别从偏差-方差分解、误差-分歧分解的角度,理论上证明这两种方法的有效性。·将xEnsemble和RSEnsemble方法应用于真实的糖尿病诊断数据集。该数据集规模庞大,高度类别不平衡且代价敏感。首先明确实验的评价标准,然后对该数据集进行预处理,最终实验结果证明:相比其他类似方法,这两种方法能够取得更好的分类效果。
其他文献
输变电线路上,绝缘子的污秽闪络事故一旦发生往往造成大面积、长时间停电,为国民经济造成巨大损失。沿面放电是绝缘子运行状态的重要体现,实时掌握绝缘子的沿面放电状态对预防污闪具有重要意义。文章分析了污秽绝缘子在运行中经历受潮、形成干燥带及局部电弧、局部电弧发展至极端闪络的全过程。并依据绝缘子运行中工作电压和泄漏电流的时频特征,选取了七个能够表征绝缘子放电状态的特征量。根据污秽绝缘子在放电过程中泄漏电流的
伴随着计算机技术的迅猛发展以及移动互联网深度普及,计算机支持的协同学习技术已经成为覆盖计算机和教育领域的一个研究热点。而学习过程从来就离不开对知识的有效管理,知识管
开放的互联网改变了人们的工作和生活模式,不管在何时何地,人们都可以成为信息的提供者以及信息的消费者。但是又由于互联网的匿名特点,人们在消费信息时不可能知道所有信息
相变存储器(Phase Change Memory,PCM)是一种具有吸引力和发展潜力的新型存储技术,具有非易失性、高读取速度、高存储密度以及低静态功耗等优点。这些优良特性使的 PCM有望成
智能电网作为未来电力系统发展变革的方向,现已成为世界各国关注的焦点。信息集成共享作为智能电网的基本特征之一,为电力系统的发展带来诸多优点的同时也给电力系统的运行和控制带来了安全隐患。如何保障各应用系统间的信息安全访问和交换就是电网集成体系中迫切需要解决的问题。访问控制技术作为安全防护的核心策略之一,对保障电力系统安全、稳定运行具有重要的现实意义。本文研究内容主要包括三部分:首先,结合智能电网信息集
基于波动方程的声学模拟能够获得声波在空间中真实的传播效果,在许多工程应用中起着基础作用。但因其巨大的计算量,一直是工程计算中的难点。利用现代GPU技术对波动方程求解
社交网络中社会标签化服务的出现,使得用户可以在上传图像等网络资源的同时,使用标签对资源进行标注,而且用户可以对已上传的网络资源进行主题描述、评论等。这些用户标注或
联合补充问题(JRP)在高效管理库存和节约成本方面具有非常重要的意义。由于需求等大量因素受市场环境以及外界条件影响很大,会出现各种难以预料的波动,因此往往不能达到精确的
企业服务总线(Enterprise Service Bus,ESB)基于SOA(Service OrientedArchitecture)架构可以实现异构应用系统的高效整合,成为企业应用集成(Enterprise Application Intergrati