论文部分内容阅读
近年来,随着计算机网络技术和传感器技术的发展,应用软件和设备产生了大量的高维数据,且规模呈几何级数增加。这些数据大多数是无标签样本或是带少量标签的样本,而给大量样本加标签是非常困难的。同时半监督式增量学习作为机器学习中的重要研究方向,对整个信息时代的发展都有着非常重要地意义。因此本文在研究传统机器学习算法的基础上,着重研究了基于支持向量机半监督增量学习。本文主要工作和成果如下:(1)查阅了大量国内外参考文献,讨论了现阶段半监督学和增量学习的研究进展,阐述了目前机器算法无法很好地适应复杂环境的现状,并对机器学习、半监督学习、支持向量机理论以及局部敏感哈希理论思想做了简要分析,为下文将要展开的研究做好理论基础。(2)分析了几种常用增量学习的不足,提出了一种基于局部敏感哈希的SVM增量学习方法。算法首先利用局部敏感哈希能快速查找相似数据的特性,在SVM算法的基础上,筛选出增量中可能成为SV的样本,然后与已有SV一起作为后续训练的基础。最后多个数据集的实验结果表明该算法能有效地提高训练学习的速度,并能保持有效的准确率。(3)在对半监督学习尤其是TSVM进行分析基础上,提出基于PCA-LSH的TSVM增量学习算法。算法筛选出第一次增量中与有标签样本相似的样本,通过TSVM得到SV,并筛选出再次增量中有可能成为SV的无标记样本,然后与已有SV和有标签样本一起作为后续半监督增量训练的基础。最后进行实验仿真,实验结果表明该算法提高了训练速度和分类精度,尤其在样本中带标签样本比重较小时具有极好的适应性。(4)最后,将本文提出的学习算法与实际应用相结合,验证了本文算法在实际应用中也有其有效性。