【摘 要】
:
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不
【机 构】
:
吉林大学符号计算与知识工程教育部重点实验室,长春理工大学应用数学系,长春理工大学经济管理学院
【基金项目】
:
国家科技支撑计划项目(2006BAK01A33);吉林省科技发展计划项目(20070321,20090704)资助~~
论文部分内容阅读
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正"扰动",删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.
其他文献
电子商务环境中交易实体间的信任关系类似于传统商务环境中复杂的社会关系.实体间的信任度量涉及到交易额、交易发生时间、消费实体个人收入及其对信任的风险态度等因素,难以
随着国内汽车产业的迅速发展,产品更新的日新月异,中国的汽车开发已经步入了从研究、设计到试制、试验和生产一条龙的新高度。汽车样车试制的作用总的概括为:验正产品设计;验
<正>2006年、2008年和2010年,教育部"建立中小学生学业质量分析、反馈与指导系统"项目组与江苏省教育厅共同组织了三次江苏省中小学生的学业质量测试与分析,小学语文是此测试
<正>初中数学课的类型有新授课、复习课、习题课等多种课型,教师对于新授课往往比较重视,从备课、上课、课后反思、教学设计等各个环节都能做到精雕细琢,一丝不苟。回顾多年
目前 ,人运动的视觉分析是计算机视觉领域中最活跃的研究主题之一 ,其核心是利用计算机视觉技术从图像序列中检测、跟踪、识别人并对其行为进行理解与描述 ,它在虚拟现实、视
供应链建模与仿真问题是当前供应链研究领域的一大热点,通过对供应链流程的建模与仿真,首先可以清晰地了解企业所在的供应链的结构、运作模式以及企业自身在供应链中的地位,
<正>几何直观是2011版义务教育数学课程标准的核心概念之一,也是新课标增加的关键词汇,愈来愈成为数学教育中关注的一个重要问题。笔者以为,在小学阶段培养学生的几何直观能
并购是资本营运活动的重要组成部分,是企业资本扩张的重要手段,也是实现资源优化配置的有效方式。然而作为一项复杂的资本运作活动,企业并购蕴含着大量风险。统计资料显示,世
随着医疗体制改革和医疗保障体制改革的不断深入,作为国家卫生服务和体制改革的一项重要政策和解决群众“看病难、看病贵”问题的突破口和重要措施,中国的社区卫生服务正从发
水具有来源广泛、安全性和难燃性等优点。水润滑轴承以水为润滑介质,可以节约大量的油料和贵重有色金属,减少传统油轴承对环境的污染,以及提高水下航行器的隐蔽性,因此开展水