论文部分内容阅读
随着信息技术的发展,数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据,然而,提取有用的信息,知识已成为巨大的挑战。数据丰富加上强有力的数据分析工具的需求可描述为数据丰富,但信息贫乏。快速增长的海量数据收集,存放在大型和大量数据储存库中,很难找出数据中的规律。数据挖掘将传统的数据分析与机器学习复杂算法相结合,帮助人们分析海量数据中存在的模式、潜在的知识,给人们以很大的便利。半监督学习(Semi-supervised Learning)是机器学习和数据挖掘新兴的重要研究分支。随着数据分析和数据挖掘面临的实际问题不断深入,半监督学习技术已受到了许多科研工作者的关注,半监督分类学习能处理当数据只有少量类别标记已知,而大量类别标记未知的情况。如何构建这样一个模型得到一个泛化能力强的学习器是我们研究者需要解决的问题。它主要利用数据分布模型假设,建立学习器对未标记数据进行学习标记。因此,如何综合并充分利用已标记数据和未标记数据之间构造模型,提高学习器的准确率和性能,是一个极具挑战的问题。本论文主要从传统的分类算法出发,研究能适应于少量数据类别标记已知而大量数据类别标记未知情况下的半监督分类学习技术及算法。详细地阐述了半监督学习技术的研究现状,介绍了半监督分类技术模型,并针对若干半监督分类模型提出新的改进策略,并从理论和实验中检验策略的有效性。基于K近邻(KNW)的半监督自训练(self-training)模型同等地对待学习过程中的标记数据和未标记数据,而没有区分原本就是正确的标记和通过训练得到的标记这一潜在知识,本文提出一种改进策略,它能够更好的处理数据边界问题,实验表明该改进的方法比原来的方法具有更好的分类准确率。另一方面,通过支持向量机技术,分析了半监督支持向量机(S3VMs)模型,并给出一种改进的方法,最后结合粒子群算法来优化S3VMs模型的参数,以提高模型的泛化能力。实验也检验优化过参数的半监督支持向量机具有更好的性能。接着,研究半监督协同训练(Co-training)算法,结合传统的分类方法,给出一种半监督协同训练(Co-training)的改进算法,结果表明,使用多个分类器进行模型训练,会取得更好的效果。基于以上讨论,本论文的主要创新点概述如下:1、为充分利用有标记数据和未标记数据的各自特性,提出了半监督自训练(self-training)算法的改进模型;2、分析了半监督支持向量机分类算法,结合分支定界策略,对原有的方法进行改进,最后,融合粒子群算法对其模型参数进行优化。3、研究了半监督协同训练的(Co-training)模型,提出一种基于Co-training算法的改进策略,并获得了良好的性能。为了验证所改进的模型的有效性,本文的算法均在真实的数据集上进行大量实验,实验的结果表明,在模型假设成立的条件下,改进的模型均获得很好的性能。