论文部分内容阅读
序列学习是机器学习中的一大类问题。其研究的对象是序列型的数据。传统的关于序列学习问题的研究主要集中在如声音信号、DNA序列等这种简单的序列,近年来又出现了针对序列元素内容较复杂情况时的研究,例如最大熵马尔可夫模型。有监督机器学习的特点是根据一个经人工标注从而承载了人的知识的数据集进行学习,目前比较成熟的机器学习算法都需要一个数量可观的已标注的训练数据集,而标注工作的代价往往是巨大的。因此,在保持和提高学习效果的前提下,如何尽量减少人工标注的工作量,就成为近年的一个研究热点。
本文提出一种应用于最大熵马尔可夫模型的主动学习方法,它通过人机协作的方式,在一个被部分标注的训练集的基础上由计算机寻找出最需要被标注的数据,然后由人来标注,如此迭代进行下去到一定程度。应用这种方法可以解决在复杂序列上的主动学习问题,从而达到在大大降低人工工作量的基础上仍然较好的完成序列学习的目的。
本文对所提出的主动学习的最大熵马尔可夫模型进行实验,其实验结果较好的说明了主动学习的最大熵马尔可夫模型的正确性和重要意义。本文还将展示一个基于主动学习的最大熵马尔可夫模型开发的原型系统,它很好的展示了主动学习人机协作的工作方式,可以在此原型系统中完成主动学习的工作过程。