【摘 要】
:
随着信息技术的发展,商业、工程、医学等各领域的数据日益增加,数据属性繁多,特征维度较高。不相关或冗余的特征会增加学习模型的复杂度,甚至造成模型性能的下降。因此如何选
论文部分内容阅读
随着信息技术的发展,商业、工程、医学等各领域的数据日益增加,数据属性繁多,特征维度较高。不相关或冗余的特征会增加学习模型的复杂度,甚至造成模型性能的下降。因此如何选择有效的特征子集,剔除不相关或冗余的特征,提高数据模型精确度,是数据挖掘以及各应用领域亟待解决的问题之一。本文首先对特征选择进行了综述,特征选择为解决上文提到的问题提供了方法。特征选择从现实世界中的包含复杂和冗余特征的数据中选择有价值的特征。特征选择有助于提高学习模型的分类效果,降低模型的复杂度,简化模型,节省时间,而且可以增强模型的可解释。其次介绍了子空间集成学习算法,子空间学习算法可以提高特征选择的效果,尤其是当子空间学习与集成学习结合时,然后本文提出了基于存档遗传算法的特征子空间集成学习模型,该模型中有两个种群,一个是进化种群,进化种群的个体是原始特征空间的子空间,利用小生境遗传算法来进行子空间的多目标优化,进化种群为存档种群更新提供候选个体。另一个是存档种群。存档种群内存放进化种群的精英个体,利用每代进化种群的精英个体更新存档种群,最后利用存档种群的个体训练集成学习模型。两个种群相辅相成,利用进化种群更新存档种群。存档种群则约束进化种群的进化方向,最终使得存档种群个体均为精英个体且个体之间具有多样性,模型利用这个种群的协同进化解决了集成学习中子分类器多样性与准确率相互矛盾的问题。本文的实验结果验证了模型性能,本文的模型在传统数据集和顾客信用预测数据集中均取得了较好的效果,能够通过选择较小的特征子空间,获得较高的分类和预测性能。基于子空间的特征选择算法能够选择较少的特征,并通过多样性的子空间的集成提高分类模型的性能。本文利用存档遗传算法进一步对子空间进行优化,提升了特征选择的降维性能而且分类模型的性能得到了进一步的提升。
其他文献
沥青玛蹄脂碎石混合料(SMA)超薄磨耗层作为一种预防性养护技术,因其具有良好的抗车辙、耐磨、抗滑等性能,日益受到国内外学者们的关注。然而,目前应用于工程实践的SMA超薄磨
在南方渍害田地区,通常是稻麦连作区,为研究这些地区在排水条件下的氮肥流失规律,在上海青浦农田水利试验站进行了田间试验。试验表明,在小麦生长期,地下水埋深较小时、氮素在土壤
在对外汉语教学中,口语课在课程设置中是最重要的课型之一,学生通过学习口语,可以顺利地完成交际任务。但是初级阶段的留学生由于掌握的目的语知识有限,在学习过程中出现各种
为了获得承插式装配桥墩的抗震性能,提出了一种预制墩柱与预制基础连接界面不做粗糙处理的承插式连接构造,通过拟静力试验获得了其破坏模式、滞回曲线,分析了承插式桥墩的承
哈萨克斯坦阿里-法拉比国立民族大学是哈萨克斯坦高等教育系统的主导机构,它是第一个通过国家认证的大学,涵盖实现全部学术活动的所有专业。
21世纪,人才是推动国家持续发展、获得竞争优势的动力和来源。高校作为人才的聚集地,吸引、激励并保留一大批优秀人才是高校持续健康发展的关键。教师作为高校的人才主体,对学校的发展有至关重要的作用,但目前由于聘任制的实施和高校市场化的发展趋势,再加上人才争夺战的盛行,高校教师的流动性增大。这一现象对高校的发展造成了强烈冲击,高校亟需探索能够激励、保留人才的有效方法。雇主品牌的出现为企业吸引、激励和保留人
中国人民银行获嘉县支行自1998年设立合作金融监管科以来,牢固树立"扎实监管、有效服务"的思想,一方面整章建制,夯实基础,不断完善监管手段,强化监管;另一方面不断强化服务职
文章利用CFD技术对空冷型PV/T集热器进行数值模拟,并根据模拟结果分析了渐扩、渐缩通道和空气质量流量对该集热器综合效率的影响。文章基于上述分析结果对原有的渐扩、渐缩通
广东省是柑橘黄龙病疫区,种植柑橘无病苗,防控柑橘木虱等害虫的为害和传病是控制柑橘黄龙病的有效措施,也是我省柑橘有机栽培的必然出路,因此,研究柑橘网棚栽培,具有较大的理
邮政改革发展的关键时刻。邮政改革已经走到了一个十分重要的历史关头,改革越深入,攻坚难度越大,风险也越大。面对复杂的发展环境,面对严峻的市场竞争,我们要保持清醒头脑,实事求是