论文部分内容阅读
机器学习是人工智能的核心研究内容之一,它包含三个重要的研究领域:监督学习,半监督学习和无监督学习。监督学习需要利用带标签样本进行训练,以保证其泛化能力。而无监督学习不需要利用带标签数据,但不能保证其模型准确率。随着计算机应用技术的发展,企业信息化建设水平日益提高,传统的质量控制手段难以满足实际生产的需要。随着新检测技术的引进,容易获取的是大量无标记数据,而对数据进行人工标记的代价很高。因此,将少量带标记数据和大量无标记数据结合的半监督学习成为研究热点。传统的分类算法在少量标记数据上难以得到精确的分类模型,因此,难以在实际应用中发挥作用。本文将半监督学习引入到传统的分类算法中,尝试利用无标签数据具有的额外信息指导分类模型的建立,提高分类性能。通过实验验证将半监督学习应用到近红外光谱数据的分类中具有重要的理论和实际应用价值。不仅减少了人工标注样本的成本和时间,而且有效提高分类精度。本文的研究成果包括:(1)提出了一种基于数据剪辑的半监督随机森林算法。将半监督学习和数据剪辑方法引入到传统的随机森林算法中,利用决策树的对等分类器集合对无标签样本进行预测,选取置信度大于默认阈值的样本加入到训练集合中。为了防止错误标记的样本影响分类器性能,对新标记样本进行收敛性分析和数据剪辑操作。收敛性分析判断新标记的样本能够使分类器性能逐渐提升。数据剪辑方法使用RemoveOnly方法进一步移除错误标记样本。通过实验证明,基于数据剪辑的半监督随机森林具有较好的泛化性能,解决了标记样本不足时建模困难的问题。(2)将本文提出的算法用于使用近红外光谱进行卷烟产品感官评估的实际应用中。通过对比实验,验证了该算法在近红外数据上能够建立性能较好且稳健的分类模型。证明了该算法具有实际的工程应用价值,在实际生产中具有很好的指导意义。