论文部分内容阅读
在现实生活中,人们可以很容易地获取大量的数据,但是通常其中大部分数据是没有样本标签的。传统的监督学习算法仅使用少部分有标签的数据进行训练,由于训练样本规模小,信息不完备,很难达到较好的预测效果。如果对没有样本标签的样本进行人工标注,又需要消耗大量的时间和精力,甚至在有些情况下根本无法完成对大量样本的标注。针对这个现实问题,传统的监督学习算法无法提出一个准确、高效的解决方案,主动学习算法却可以解决这个问题。利用主动学习的专家标注机制可以不断选择信息量大的样本进行标注扩充样本集,最终获得较优的预测模型。相关向量机是一种典型的稀疏贝叶斯学习模型,其具有很强的稀疏性,提供更灵活的核函数选择以及概率化的输出,并且也有着不亚于其他机器学习方法的预测性能。因此,本文主要结合相关向量机进行主动学习算法的研究,使用混合高斯探索样本的分布特征,基于马氏距离构造结合样本分布特性的混合高斯核函数,改进经典的相关向量机模型,提出基于混合高斯核的直推式相关向量机算法,并将其应用到主动学习框架中,定义一种新的主动学习算法。本文的主要研究工作如下:(1)为了在学习过程中充分考虑样本的分布特性,利用混合高斯探索样本的分布特性,基于马氏距离构建混合高斯距离作为核距离,设计了结合样本分布特性的混合高斯核函数,并使用核排列方法对混合高斯核的性能进行了评估。(2)进行了直推式相关向量机算法的研究。通过核矩阵扩充的方法,在模型的训练过程中引入未标记样本,提出基于核矩阵扩充的直推式相关向量机,充分利用所有样本的有效信息。然后,将混合高斯核应用到该直推式相关向量机中,提出了基于混合高斯核的直推式相关向量机算法,并通过实验验证了算法性能。(3)结合相关向量机和混合高斯进行主动学习算法的研究,将基于混合高斯核的直推式相关向量机算法应用到主动学习框架中,构建主动学习的分类器,来提高迭代过程中分类器的精度,加快算法的收敛速度。并提出了相应的初始样本选择策略和样本筛选策略,定义了一种新的主动学习算法。最后将该算法应用到文本分类问题中,验证了其具有较强的准确性及实用性。