论文部分内容阅读
在信息技术飞速发展的带动下,机器学习领域中的半监督学习自从产生便不断发展壮大,在丰富了数据挖掘、统计研究等相关领域的同时,也为其他学科实现快速发展提供了更好的机遇和更多的可能。伴随着“互联网+”时代的到来,在这样的环境下,大量的数据中隐含着的信息不断被挖掘利用,创造新的价值。基于图的半监督学习凭借其直观性也逐渐被更多的学者所研究和使用。利用样本集构图作为基于图的半监督学习的重要构成环节,往往决定着学习算法的效率高低,合适的构图能够带来更高的分类准确率。当下基于图的学习方法研究中采用的构图方法大多都是K近邻构图法,对于其他的构图方法的研究却相对较少。同时由于常用的构图方法在解决样本数据的连接边的对称性和连通性上存在一定的不足,因而对使用什么样的构图方法能够更好的提高基于图的半监督学习效率的问题研究是十分迫切和必要的。本文的主要研究内容如下:⑴通过查阅大量的国内外文献资料,结合国内外的研究现状和具有代表性的案例分析,对基于图的半监督学习的内涵和特点做了较为全面完整的综述,并概述了基于图的半监督学习方法的基本理论及技术;⑵为了克服半监督分类算法中常用的k近邻图构图方法不能同时满足边的对称性和图的连通性的不足,本文将最小最大邻域阶方法应用到半监督分类算法的构图过程中,提出了基于最小最大邻域阶的半监督分类算法(KMMLGC算法)。通过对随机样本数据和UCI数据集上的数据的仿真实验,表明了KMMLGC算法的有效性;⑶自然最近邻构图法是一种自适应的、无参数的搜索样本最近邻的方法。本文将自然最近邻构图方式应用到半监督算法的构图过程中,提出了基于自然最近邻的半监督分类算法(3NLGC算法),随机样本集和UCI数据集上的仿真实验表明了3NLGC算法的有效性,同时针对3NLGC算法和KMMLGC算法在UCI数据集上进行了对比实验,实验表明3N算法的效率更高。⑷最后,对本文所做的研究工作做了总结,提出了现阶段研究存在的不足,并对后续研究做出展望。