半监督分类技术及其算法研究

被引量 : 0次 | 上传用户：poiuytrewq444

【摘要】

：

随着信息技术的发展,数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据,然而,提取有用的信息,知识已成为巨大的挑战。数据丰富加上强有力的数据分析工具的需

【作者】

：

陆广泉

【发表日期】

：

2011年期

【关键词】

：

半监督学习分类 Co-training

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展,数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据,然而,提取有用的信息,知识已成为巨大的挑战。数据丰富加上强有力的数据分析工具的需求可描述为数据丰富,但信息贫乏。快速增长的海量数据收集,存放在大型和大量数据储存库中,很难找出数据中的规律。数据挖掘将传统的数据分析与机器学习复杂算法相结合,帮助人们分析海量数据中存在的模式、潜在的知识,给人们以很大的便利。半监督学习(Semi-supervised Learning)是机器学习和数据挖掘新兴的重要研究分支。随着数据分析和数据挖掘面临的实际问题不断深入,半监督学习技术已受到了许多科研工作者的关注,半监督分类学习能处理当数据只有少量类别标记已知,而大量类别标记未知的情况。如何构建这样一个模型得到一个泛化能力强的学习器是我们研究者需要解决的问题。它主要利用数据分布模型假设,建立学习器对未标记数据进行学习标记。因此,如何综合并充分利用已标记数据和未标记数据之间构造模型,提高学习器的准确率和性能,是一个极具挑战的问题。本论文主要从传统的分类算法出发,研究能适应于少量数据类别标记已知而大量数据类别标记未知情况下的半监督分类学习技术及算法。详细地阐述了半监督学习技术的研究现状,介绍了半监督分类技术模型,并针对若干半监督分类模型提出新的改进策略,并从理论和实验中检验策略的有效性。基于K近邻(KNW)的半监督自训练(self-training)模型同等地对待学习过程中的标记数据和未标记数据,而没有区分原本就是正确的标记和通过训练得到的标记这一潜在知识,本文提出一种改进策略,它能够更好的处理数据边界问题,实验表明该改进的方法比原来的方法具有更好的分类准确率。另一方面,通过支持向量机技术,分析了半监督支持向量机(S3VMs)模型,并给出一种改进的方法,最后结合粒子群算法来优化S3VMs模型的参数,以提高模型的泛化能力。实验也检验优化过参数的半监督支持向量机具有更好的性能。接着,研究半监督协同训练(Co-training)算法,结合传统的分类方法,给出一种半监督协同训练(Co-training)的改进算法,结果表明,使用多个分类器进行模型训练,会取得更好的效果。基于以上讨论,本论文的主要创新点概述如下：1、为充分利用有标记数据和未标记数据的各自特性,提出了半监督自训练(self-training)算法的改进模型；2、分析了半监督支持向量机分类算法,结合分支定界策略,对原有的方法进行改进,最后,融合粒子群算法对其模型参数进行优化。3、研究了半监督协同训练的(Co-training)模型,提出一种基于Co-training算法的改进策略,并获得了良好的性能。为了验证所改进的模型的有效性,本文的算法均在真实的数据集上进行大量实验,实验的结果表明,在模型假设成立的条件下,改进的模型均获得很好的性能。

其他文献

马克思主义生态观及其当代价值

在当代,随着科学技术和生产力的高速发展,人类大大加强了对自然资源开发和利用的力度,创造了丰厚的物质文明,使其在物质上的满足进入到了前所未有的历史时代。但是,正当人类

学位

生态观生态文明自在自然人与自然

关于房地产企业员工培训与开发的探讨

本文对人力资源部员工培训与开发工作开展初期所遇到的问题以数据或案例的形式进行描述和分析,揭示出员工培训与开发工作的常见问题并对其发展现状进行分析,提出了关于员工培

期刊

房地产企业员工培训开发

红楼茶道

《红楼梦》不仅是一部反映中国封建制度的没落史,同时也是一部汇萃中华民族传统文化的百科全书,茶文化便是其中之一。在《红楼梦》洋洋大观的120回里,出现频率最高的情节就是

期刊

六安茶

基于云模型的露天矿抛掷爆破效果综合评价

以云模型理论为基础,依据评价指标体系建立原则,选取炸药单耗、极限振速、有效抛掷率及松散系数建立了评价指标体系,进而构建了露天煤矿抛掷爆破效果综合评价模型,综合考虑了

期刊

云模型露天矿抛掷爆破综合评价

新一代大学英语教材的需求分析与反思

本文首先从国家、社会、教师、学生4个方面入手分析当前我国各方对新型大学英语教材建设的需求。在此基础上,笔者指出:我国外语界近期立足上述4方立场所作的需求分析普遍存在

期刊

大学英语教材需求分析教学模式改革

法伦理学：学科抑或思想

有关法伦理学的探讨在我国大陆地区已开展近三十年,然而其研究热度远不及以法社会学、法经济学为代表的众多边缘法学,探讨的内容也多局限于基础理论话题,少有独到的建树。学

学位

法伦理学法律与道德创生途径

图书馆学也是一种人学——图书馆哲学思考之三

图书馆学的研究对象是文献信息与人的相互作用。盲目推崇“世界3”理论和信息技术的结局是泯灭了图书馆学的人文性质。为了恢复图书馆学的人文性质,应探索和建构人本主义图书

期刊

图书馆学人文性质人本主义文献信息哲学思考

戈尔巴乔夫执政一年来苏联文艺政策动向

<正> 苏共中央总-书记戈尔巴乔夫上台执政已经一年多了。在这段时间里,苏联文艺界的最大特点是思想空前活跃,要求改革的势头很猛。与此同时,苏联文艺方针政策在提法上也有很

期刊

戈尔巴乔夫文艺方针叶甫图申科政策动向

计算机网络技术在现代电子商务中的应用

随着经济不断发展,计算机网络技术的应用范围变得越来越广泛,在一定程度上促进人们生活和工作的网络化发展。近年来,计算机网络技术在现代电子商务中的应用,给电子商务个计算

期刊

计算机网络技术现代电子商务中应用

基于广电有线网的智能家庭网络结构

根据现有广电网络的网络架构和特性,本文提出了基于广电有线网络开展智能家庭物联网业务的系统架构,并对各层网络结构进行阐述与分析。最后对广电行业开展物联网业务进行展望

期刊

物联网广播电视网络智能家庭物联网

半监督分类技术及其算法研究

与本文相关的学术论文