基于聚类的自适应集成学习方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:arsonloupeen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是机器学习领域中首要热门方向。它是通过某种方式组合多个学习器解决同一问题并且能够显著提升整个学习系统的泛化性能。集成学习由最初的萌芽经过众多相关领域的研究人员多年不懈的努力逐步发展起来,并取得很多成果。但与实际的要求还存在一定差距,为此仍需要更深入的分析与研究。在传统的集成学习领域中,现有研究主要关注如何构建基学习器以及减少训练损失对基学习器进行有效集成,很少关注测试样本与基学习器的适应性。在本文中,通过传统的集成学习与惰性学习的关系建立测试样本、基学习器两者之间的联系,提出了基于K-means的自适应AdaBoost与基于LDA主题聚类的自适应随机森林两种算法。1.提出基于K-means聚类的自适应AdaBoost算法。该算法是基于AdaBoost算法生成的基学习器上实现的。其中,AdaBoost算法在训练基学习器的过程中,会逐步增加误分类样本的权重,相对将导致被正确分类的样本权重过低,为此训练得到的基学习器对倾向于样本空间的部分区域较好效果,而忽略了其他区域的样本。进而提出,先将训练样本进行聚类,并计算每个基学习器对所有类簇的适应度(错误率)。当一个未知样本进入测试阶段,计算当前样本与各个类簇的相似度,并结合每个基学习器对各个类簇的适应度,从而可以赋予各个基学习器与当前测试样本相适应的权重。本算法在10个UCI标准数据集上进行实验,且实验结果表明该算法的分类性能优于传统的AdaBoost算法。2.提出基于LDA主题聚类的自适应随机森林算法。该算法首先利用随机森林算法生成的基学习器对训练集构建残差空间,接着按照一定规则把残差空间转化为文档集并使用LDA主题模型产生与基学习器相关的元特征,然后将这些元特征与基学习器模型基于FWLS(Feature-Weighted Linear Stacking)算法进行学习,进而得到一系列系数,将该类系数与相应的元特征相结合,可求得每个基学习器对应的权重。在测试阶段,通过测试样本与训练样本的联系,求得当前测试样本与各个基学习器相适应的元特征,结合之前求得的系数,各个基学习器也相应得到与当前测试样本适应的权重。从而可根据不同的测试样本动态地给予基学习器合适的权重。本算法在10个UCI标准数据集上进行实验,且实验结果也表明该算法的分类性能优于传统的随机森林算法。
其他文献
近年来,Android智能手机发展十分迅速,但是Android系统的开源性以及应用商城对新发布软件检查力度的薄弱,导致Android平台上的恶意软件日渐增长,单纯依靠病毒分析人员手工处
当今社会,产品质量安全问题日益受到重视,多方面保证产品质量安全刻不容缓。为了更好提高产品质量安全,保证消费者合法权益,本课题在对产品生产过程进行追溯的基础上,联合国
随着移动通信技术和智能终端的快速发展,移动互联网已经深入人们生活的方方面面,智能手机作为接入互联网的工具,不仅为我们提供了通信服务,而且改变了我们的生活方式,如娱乐
外观设计以产品外形或包装的最终形态出现在市场经济中,对各种市场主体产生了直接的影响,因而对市场经济的重要性不言而喻。伴随着经济的飞速发展,传统大陆和英美法系在专利
随着近年通信技术和互联网技术的不断发展,数据流的价值越来越受到重视,其中隐含着很多有价值且有时效性的信息,而获取这种信息的手段就是数据挖掘技术。关联规则挖掘技术作
民主是政治生活永恒的追求,经过不断的实践和检验,我国已经形成了具有中国特色社会主义的协商民主理论。党的十八大以来,习近平总书记高度重视协商民主的建设和发展,鼓励大家从协商民主的角度去研究我国政治建设的发展。我国的广大农村地区,村民自治是我国农村基层民主建设的核心问题。随着我国经济社会的不断发展,社会利益主体日益多元化,为了满足个人的利益需求,他们往往会在基层民主建设中突出表现自身的利益,不利于公共
目前虚拟现实是受关注最多的高新技术之一,而分布式仿真一直是虚拟现实领域的研究热点。随着虚拟现实系统的规模不断扩大和逼真度要求逐步提高,将分布式仿真技术、视景仿真技
近年来互联网发展速度一日千里,变化日新月异。电脑、手机的迅速普及和功能的强劲使得人们在足不出户的情况下就能通过互联网了解国内外资讯、查看新闻、关注娱乐时尚、获取
根据计算,到2020年中国国际移动通信频谱需求总量将达到1350~1810 MHz。截止到2014年底,中国为国际移动通信系统规划的频率总计达到687 MHz,还存在至少663 MHz的需求缺口。因
近年来外国投资者对中国的并购投资项目数量增长,并购金额逐年增加,我国已经成为世界主要国家投资的目标市场。但是针对大量的外资并购项目,我国没有专门的外资并购国家安全