基于数据选择方法的分类器性能提高的研究

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:ivyjiawx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前机器学习作为数据挖掘中一种重要的工具,其不只是对人的认知学习过程的探索,还包括对数据的分析处理。面对大量数据的挑战,目前一部分研究专注于机器学习算法的改进和开拓,另一部分研究人员则致力于样本数据的选择和数据集的缩减,这两方面研究工作是并行的。训练样本数据选择是机器学习的一个研究热点,通过对样本数据的有效选择,提取更具有信息量的样本,剔除冗余样本和噪声数据,从而提高训练样本质量,进而获得更好的学习性能。本文以分类器训练样本为研究对象,对分类器训练样本选择方法进行研究。(1)作者就目前存在的样本数据选择方法进行综述研究,对目前存在的方法从基于抽样的方法、基于聚类的方法、基于近邻分类规则的方法这三大类以及其他相关数据选择方法四个方面进行总结和分析对比,并对训练样本数据选择方法存在的问题和未来研究方向提出一些结论和展望。(2)为了提高神经网络分类器的性能,本文提出一种新的训练样本数据选择方法——基于K均值聚类的分段样本数据选择方法,利用该方法结合人工数据集和UCI标准数据集分别对BP、LVQ、ENN(Extension neural network)这三种常用的分类器进行实验研究,并验证了该方案的有效性。通过对比实验可以看出在平均压缩比为66.93%的前提下,对于三种神经网络分类器的性能大部分情况下在其训练步长和测试集分类精度方面有所改善,说明所提出的训练样本数据选择方法能够筛选出训练集中的优秀样本,剔除大量冗余样本,保证了训练样本的质量,挑选出的训练集进行训练能够改善神经网络分类器的性能。(3)结合第四章提出的基于聚类的分段样本数据选择方法中第一步获得的K均值聚类中心来确定ENN网络的初始类中心提出KENN网络,并结合挑选数据集通过人工数据集和Iris数据集以及实际工程应用数据证明了其能进一步提高ENN的性能,为提高ENN的性能提供了一种可参考的解决方案。与传统的ENN相比,提出的KENN结合数据选择方法具有更短的学习时间、更高的分类精度、更好的学习能力和更强的泛化能力。有效地提高了传统ENN的综合性能。
其他文献
金属-有机骨架(MOFs)是一种新型的固体多孔材料。由于其优秀的多孔结构,超大比表面积,以及孔道结构易调控修饰等有趣的特性,使得它们在气体分离,气体储存,催化,药物运输和传感
公路工程建设是一个高投入、工期紧、环节多、程序性很强的产品实现过程。交通运输部为改变我国传统“项目法人+社会监理”的公路项目建设管理模式中存在的问题,于2015年提出
视觉SLAM技术由于其传感器价格低廉以及环境感知能力强的特点正在被越来越多的用在低精度定位场景,作为感知手段可以为高精度定位系统提供丰富的环境语义信息,是最近的研究热
近年来随着互联网在线教育的快速发展,人们的学习模式逐渐地由传统的线下教育过渡到了线上学习,这一方面带来了大规模的线上判分任务,另一方面使得计算机自动评分相关的需求
政务新媒体具有互动性强、信息流动快、传播范围广的特征,它们的出现与发展打破了政府部门依靠传统媒体向公众单向传播信息的格局。政务微信作为中国政府部门推出的官方微信
热电材料作为一种不利用活动部件可直接实现热能和电能相互转换的功能材料,已成为新能源材料的研究热点,SrTiO3基热电材料在热电材料中具有巨大的应用前景,而纳米结构和复合
微电网在智能电网与配电网中的地位突出,由各种分布式电源、控制设备、储能设备与负荷等组成,它可用于发电、配电。微电网不仅可联网运行,也可孤立运行;当联网运行时,由大电
机器学习在不同领域的广泛应用往往依赖于大量数据。而在实际应用中,高维数据的存在给不少机器学习任务带来了困难。为了应对这些高维数据带来的挑战,人们提出了很多基于子空
当前,我国的经济发展进入了一个新的常态。坚持以人为本的发展思想,牢固树立和贯彻创新、协调、绿色、开放、共享五大发展理念,扎实推进以供给侧结构性改革为主线的经济工作,
近年来,羟基氟化物由于其制备方法简单多样,形貌易于控制,抗氧化性强,在空气中能够稳定存在,还具有独特的电子能带结构,使其成为潜在的新型功能材。羟基氟化物通常为宽带隙半