【摘 要】
:
AdaBoost是一种有力的集成学习方法,能将一系列低预测精度的弱学习器结合成为一个高预测精度的强学习器。然而,与其它集成学习方法相似,AdaBoost也需要使用大量的基学习器来产生最终的预测结果,因此当数据维度较高或集成规模较大时,构建AdaBoost集成模型对计算机的内存空间产生了挑战。回归模型中的特征选择方法能够显著地降低数据维度,并且在集成学习中也已证明了其有效性。通过对集成模型进行剪枝,
论文部分内容阅读
AdaBoost是一种有力的集成学习方法,能将一系列低预测精度的弱学习器结合成为一个高预测精度的强学习器。然而,与其它集成学习方法相似,AdaBoost也需要使用大量的基学习器来产生最终的预测结果,因此当数据维度较高或集成规模较大时,构建AdaBoost集成模型对计算机的内存空间产生了挑战。回归模型中的特征选择方法能够显著地降低数据维度,并且在集成学习中也已证明了其有效性。通过对集成模型进行剪枝,我们能够产生一个规模更小,精度却更高的集成模型。在本文中,我们提出使用最小最大凹度惩罚函数(MCP)对AdaBoost模型进行集成剪枝,在简化集成模型的同时改进预测精度。本文首先使用MCP惩罚的逻辑回归对高维数据进行变量筛选处理,再使用AdaBoost集成方法进行建模,并以实验说明对高维数据使用MCP进行变量筛选不仅不会损害后续AdaBoost模型的性能,反而能提高其预测精度;在建立AdaBoost集成模型后,取其基学习器的预测结果作为逻辑回归中的预测矩阵,从而使用带有MCP惩罚项的逻辑回归对集成模型进行剪枝,MCP的剪枝效果将与LASSO与SCAD惩罚函数的效果作比较。在真实数据集上进行的实验结果表明,在有噪声数据集中,使用MCP函数进行集成剪枝得到良好的效果:在本文涉及到的所有六个有噪声数据集中,使用MCP剪枝后的模型均比原模型有更高的预测精度,同时其平均集成规模大幅降低至原模型的5%至20%,其总体效果也优于使用另外两个惩罚函数剪枝的模型。通过实验,本文得出以下结论:在使用AdaBoost进行高维数据的分类预测时,使用带MCP惩罚项的逻辑回归模型能够在缩小集成规模的同时提高模型表现。
其他文献
背景黑色素瘤作为一种致死性极高的皮肤肿瘤,寻找其新的治疗方法依然非常重要。目前,肿瘤免疫治疗,特别是免疫治疗联合其它疗法受到了人们越来越多的关注。IDO2作为一种具有免疫抑制作用的色氨酸犬尿氨酸代谢途径的限速酶,在黑色素瘤组织中高表达,显著抑制了机体的抗肿瘤免疫,成为了黑色素瘤治疗的一个新靶点。同时硝呋奇特作为一种肠道抑菌药,本课题组前期发现其能够抑制Stat3表达,具有一定的抗肿瘤作用。因此,该
近来由于量子信息的发展,人们开始从量子信息的角度去研究量子热力学,广义相对论,黑洞,甚至有人开始尝试将量子纠缠用于统一场论的研究,其中量子热力学的发展尤为突出。这主
为满足人们对健康优质羊肉的需求,本试验旨在研究不同能量水平对阿勒泰羔羊血清脂质指标、脂肪沉积分布、脂肪细胞大小、脂肪代谢相关基因mRNA表达,进一步利用iTRAQ蛋白组学技术筛选与脂肪代谢相关的蛋白及其通路,为脂肪代谢的调控提供数据参考。选取月龄相近(33.5月龄)、体重接近(19.16±0.54)kg、臀型一致、健康状况良好的阿勒泰母羔30只,随机分为3组,每组10只羊,自由采食60 d后,分别
随着大型互联电力系统的出现,系统的小干扰稳定性问题备受关注。其中,以求解状态空间方程为核心的特征值分析法,也随着电力系统中矩阵规模的不断扩大,而逐渐陷入“维数灾难”
为了进一步提高水资源利用率,保证农业生产平稳发展,近年来在我国在内陆河源灌区逐渐产生了滴灌与沟垄覆膜栽培相结合的新型节水措施。滴灌水分入渗所形成的湿润区域(湿润体)
社会发展的最终目的是共同富裕,但是在我国改革开放以来人民生活水平极大提高的同时却出现了越来越大的城乡收入差距。针对城乡收入差距这个问题,不同的学科有不同的解释。除
机动车行业在我国经济高速发展的态势下迅速发展,汽车保有量不断增加。这也使得汽车排放的尾气成为大气污染的主要原因。其主要成分包括氮氧化物、碳氢化合物、一氧化碳及颗粒物,而其中氮氧化物占比最大,主要通过柴油车排放,占汽车尾气总量的70%,给人民的身体健康带来的巨大的危害。针对上述的问题,我国也不断制订相应的排放标准来控制汽车尾气的排放,为指导汽车生产企业、生态环境主管部门和相关的检验检测机构提供重要的
人口信息是社会最核心、最宝贵的基础信息资源之一,是国家发展建设、政策制定、法规颁布等多方面的重要依据。探索人口信息在治安防控中的应用完善,既是当前人员高速流动、信息迅速变动的社会发展趋势下,公安机关主动优化治安防控策略、提高治安防控精度广度与深度、高效利用治安防控资源的重要抓手,也是提高人口信息资源价值的应有之义。在公安机关内部、政府其他部门与各类社会部门主体间都产生了丰富的人口信息资源,为治安防
电容层析成像技术(Electrical Capacitance Tomography,简称ECT)是一种工业过程层析成像技术,主要用于对两相流和多相流进行测量和成像。该技术根据被测物质各相之间具有不同的介电常数的性质,通过测量排列在管道周围电极对之间的电容值,采用合适的图像重建算法,来获取管道内的介质分布情况。与其它过程层析成像检测技术相比,ECT具有非侵入、无辐射、成本低、安全性能好和成像速度快
辽阳市把坚决推进村党组织书记、村民委员会主任"一肩挑"作为当前农村党建工作的一项重点任务,统一部署、密集调度、强力推进,截至6月15日,全市530个行政村中445个已实现"一