论文部分内容阅读
随着Internet技术的突飞猛进,Web信息量爆炸性增长,人们越来越习惯使用搜索引擎查找所关心的信息。但浩瀚的信息资源却给搜索引擎的发展提出了新的挑战。如何有效、快捷、准确地将查询结果返回给用户,提高Web信息检索效果,已变成一项迫切而有意义的研究课题。
在现阶段信息检索领域的研究中,基于监督学习的排序学习逐渐成为排序研究的热点。基于监督学习的排序学习需要大量的人工标注的样本,为了减少人工标注样本的标注量,产生了一些基于“选择最值得标注的样本进行标注”思想的所谓主动排序学习算法。通过主动排序学习算法,用户不需要一开始标注所有的样本,而是开始只标注一部分样本,先学习得到一个排序模型;然后每次从剩下的未标注样本中选择一个最值得标注的样本进行标注,把这个新标注的样本放入训练集中,重新训练得到新的排序模型;然后在剩下的未标注样本中再重新选择一个样本进行标注,加入训练集,如此类推直到得到最终的排序模型。主动学习减少了排序学习的样本标注量,但此方法有一个问题是每次只选择一个样本标注,之后又要重新训练,训练需要很多时间,同时标注人员标注下一个样本需要等待很长时间。如果每次可以选择多个样本,则可以减少整个主动排序学习的时间,降低标注人员的工作量,即标注代价,同时,如果有多个标注人员的话,还可以实现并行标注,提高主动排序的效率。
针对上述问题,本文提出批量主动排序学习的思想,主动排序学习的时候,一次能够找到多个值得标注的样本给用户标注,这多个标注的样本对排序模型性能的提升有很大的价值。
本文提出了两种批量主动排序学习算法,一种是基于夹角差异的批量主动排序学习算法,该算法通过加入批量选择的样本之间的夹角差异度量,来减少批量选择的样本之间的相似度,提高批量主动排序的性能。另一种是基于损失函数的批量主动排序学习算法,该算法直接从提高排序模型性能的损失函数入手,批量选择能够使损失函数达到最小值的那些样本进行标注。
本文在不同数据集上进行实验评价以上两种批量主动排序学习算法,同时与单样本主动排序学习算法,原始的批量主动排序学习算法(直接用单个主动排序学习算法选择多个样本)等进行比较分析。实验结果表明,本文提出的批量主动排序学习算法具有很好的性能。