【摘 要】
:
自训练是半监督分类中最常用的算法之一,该算法通过自主迭代的方式训练分类器,简单有效.但是,在自训练算法训练分类器的过程中,容易对无标记样本分类错误,而且这些错误标签会用于后续迭代训练,造成错误累积,从而降低算法的分类准确率.本文从处理错误标记样本的角度出发,对自训练分类算法展开深入研究,主要工作如下.本文提出了一种基于密度峰值和切边权值统计的自训练(ST-DP-CEWS)算法.在每次迭代训练时,首
论文部分内容阅读
自训练是半监督分类中最常用的算法之一,该算法通过自主迭代的方式训练分类器,简单有效.但是,在自训练算法训练分类器的过程中,容易对无标记样本分类错误,而且这些错误标签会用于后续迭代训练,造成错误累积,从而降低算法的分类准确率.本文从处理错误标记样本的角度出发,对自训练分类算法展开深入研究,主要工作如下.本文提出了一种基于密度峰值和切边权值统计的自训练(ST-DP-CEWS)算法.在每次迭代训练时,首先,在密度聚类的过程中通过寻找样本的密度峰值发现数据集的空间结构,利用空间结构选出具有代表性的无标记样本优先进行标签预测.然后,通过切边权值统计的方法判断这些样本是否被标记正确.最后,用正确标记的样本逐步扩充有标记样本集,对于错误标记的样本,删除其预测标签,在后续迭代训练中重新分类.ST-DP-CEWS算法既充分利用了整个数据集的空间结构信息,又降低了错误标记样本对自训练算法的影响,提高了算法的分类准确率.为了验证ST-DP-CEWS算法的有效性,在14个真实数据集上与其他相关的分类算法进行对比分析,实验结果表明提出的算法在分类准确率上优于其他算法.紧接着,本文又从两个方面对提出的ST-DP-CEWS算法进行改进.一方面,处理错误标记样本在自训练算法中起着关键性的作用,为了更准确有效的识别错误标记样本,对切边权值统计方法中边的权值计算进行改进.对于待测样本,先用最大距离标准化其近邻样本的距离,再利用高斯核函数计算待测样本与其近邻样本标签相同的概率,进而计算出边的权值.另一方面,对算法中的距离度量进行改进,采用与分布有关的马氏距离,更好的计算样本之间的相似度.经过这两方面的改进后,ST-DP-CEWS算法在计算边的权值以及样本间的相似性时,也考虑了整个数据集的结构以及分布情况,因此会在一定程度上提高ST-DP-CEWS算法的分类准确率.在14个真实数据集上的实验结果表明,改进后ST-DP-CEWS算法的分类性能更好。
其他文献
随着我国供电负荷大幅增加,目前500kV电网中心节点的短路容量不断增大,当发生短路故障时电流可能超过断路器的开断裕度,使得断路器无法有效切除故障,从未导致更多区域的停电事故,严重威胁电网运行安全。为解决500kV电网发展过程中短路电流过大的问题,采用一种基于高耦合分裂电抗器(High Coupled Split Reactor-HCSR)自动均限流技术的限流器。限流器中高耦合电抗器及其两端、臂间、
随着全球经济迅速发展,旅游成为了人们最青睐的娱乐方式之一。同时,随着移动网络技术的快速发展,旅游类手机APP应运而生,国内旅游公司纷纷推出英译版旅游类手机APP抢占国外游
近年来,大数据时代的到来带动了通信数据爆发式地增长,为承担传输全球国际间通信97%以上数据流量的海底光缆通信系统提供了广阔的发展空间。随着相干光学检测和高速数字信号处理技术的出现及发展,为适应国际通信数据流量的爆炸式增长,海底光缆系统中应用到的光纤传输技术也在不断升级,而且海缆系统的链路终端设备的技术周期越来越短。为了在价格,性能和功能等方面达到更优的效果,系统运营商以及建造厂家越来越倾向于使用海
《洪武正韵》是明初朱元璋为了统一用韵标准而下令编纂的一部官修韵书,全书共收14550个字,其中异体字有1226个。研究《洪武正韵》异体字对汉字构形学异体字理论的丰富和发展具有一定的理论价值,对字际关系的认同和全汉字的整理也具有一定的应用价值。《洪武正韵》异体字表述具有比较固定的体例。全书共使用亦作、或作、又作、本作等10种表述体例来沟通异体字。其中,使用“亦作”数量最多,共2578次,占异体总组数
家庭观、国家观以及国家关系问题是政治思想史研究中的一个重要问题。在中西文明各自定型分道扬镳的轴心时代,古希腊的思想家和中国的思想家分别提出了各自的国家观,并对后来政治思想的发展产生了很大影响。在古希腊,亚里士多德极力强调家庭与国家的差异,并以国家异构异理的观点为基础提出了自己的一套政治思想。与之相反,在古代中国,孟子继承孔子,以国家同构同理的观点为基础提出了系统的仁政思想。两位思想家的政治思想不但
企业员工是提升企业核心竞争力的源头,人才是推动社会经济发展的重要动力和因素,在我国激烈的市场竞争环境背景下,企业员工的流失现象比较严重,尤其是中小型企业,这类企业的规模不大,技术水平不够先进,但为了在市场竞争中占据一角,有很多企业不重视正确处理与员工的劳动关系,例如,企业管理者过多的考虑企业的经济收益,而侵犯了员工的合法权益,随意拖欠或者克扣员工的工资;加大员工的工作强度;不执行劳动安全卫生规程,
随着近年来计算机视觉技术的不断发展以及相关硬件性能的提高,计算机视觉已广泛应用于各个领域,推动了社会的发展。视觉测距作为计算机视觉的一个重要研究方向,在无人机视觉定位、机器人自主导航、非接触测量等方面已经发挥了巨大的作用,利用计算机视觉技术进行测距逐渐成为测距定位技术的研究热点。基于深度学习的目标检测算法从2014年开始发展迅速,在精度和速度上都有了长足的发展,已经开始逐渐在监控、物流、交通、识别
为解决中小企业融资难问题,改善国有商业银行“一统天下”的金融格局,化解金融危机,我国政府采取了一系列政策引导民营银行走向法律化。2013年7月国务院办公厅正式下发的《关
目的:检测汉族和新疆哈萨克族食管鳞状细胞癌(esophageal squamous carcinoma,ESCC)、高级别上皮内瘤变(HGIN)、低级别上皮内瘤变(LGIN)以及癌旁正常组织中Profilin2蛋白的表达情况
随着区块链的诞生与快速发展,诸多领域逐渐产生了基于区块链技术的应用,包括区块链技术在金融领域的跨境支付、物流和农业领域的追踪溯源、公共服务领域的公共管理、数字版权领域的确权管理等。区块链系统是一个去中心化的共享数据库,因此,确保区块链系统的一致性和安全性是至关重要的。共识机制是区块链系统的核心技术,它通过特殊节点的投票,在短时间内对交易进行验证和确认,解决了如何在一个缺乏信任、完全自由开放的网络中