信息检索中体现查询差异的多排序模型融合问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:vazumi126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网技术的快速繁荣发展,信息检索己经由纯粹的学术研究转变成大多数人信息获取的技术基础。在绝大多数的信息检索系统中,其检索出来的信息(如文档)都以排序的方式返回给用户。因此,如何高效地对文档进行排序成为文档检索模型研究的核心问题之一。目前,利用监督学习的方法构造排序模型是信息检索领域中排序方法研究的热点,称之为排序学习。基于人工标注的数据,排序学习算法构造出排序模型,并且将其用于预测新的未标注数据。   在实际的信息检索任务中,待排序的文档是由不同的查询检索得到的,因此只有同一个查询检索到的文档之间才有序关系。数据集内不同查询及其候选文档组成的数据子集之间存在很大差异,现有排序学习算法在建立排序模型时把数据集中所有查询下的查询.文档对等同处理,无法充分反映由于文档归属于不同的查询所造成的差异,影响排序模型的性能。   针对上述问题,本文提出体现查询差异的多排序模型融合理论框架,在建立排序模型过程中考虑查询之间的差异。该框架首先以查询为单元将训练集划分为多个训练子集,在每一个训练子集上建立子排序模型。接着,使用监督学习方法融合建立的多个子排序模型,在融合过程中调节不同训练子集产生损失的权重,提升排序模型的性能。在体现查询差异的子排序模型生成方法上,从查询及其相关文档之间的内容和单个查询及其相关文档建立的排序模型两个角度度量查询之间的差异程度。本文在真实文档检索数据集上分析查询之间的差异和不同查询相似度度量方法对排序结果的影响。   在体现查询差异的多排序模型融合理论框架下,本文提出基于支持向量机的体现查询差异排序学习算法。将训练集划分为多个训练子集,每一个训练子集由一组相似的查询及其相关文档组成。对每一个训练子集,使用排序支持向量机方法建立子排序模型。不同子排序模型之间可以表征出查询差异对排序的影响。进一步设计基于支持向量机理论的融合函数融合多个子排序模型,并且对融合函数的构造进行了详细的说明和分析,阐述了其工作原理和性质。本文将融合函数的优化问题转化为一个等价二次规划问题求解,进一步证明了融合函数可以体现不同子排序模型产生的损失,并在优化过程中调节子排序模型产生损失的权重。   针对评价指标与损失函数不一致对应的情况,结合排序问题的特性,本文设计一种直接优化评价指标的融合函数来融合子排序模型,进一步修正融合排序模型,提升模型性能。由于大多数评价指标不连续、不可导,因此不易直接优化评价指标。本文使用连续函数拟合评价指标中不连续的部分,优化其下界函数,并证明了其下界函数的凸性,而后使用梯度上升方法进行优化。本文还证明了直接优化评价指标的融合函数可以取得比子排序模型线性合并更好的排序性能。   体现查询差异的多排序模型融合方法在信息检索中有着非常广泛的应用。在文本检索、网页搜索和较大规模文档检索等实际任务中,本文验证了体现查询差异的多排序模型融合方法在信息检索中的应用效果。基于大规模公共数据集合的实验表明,本文提出的体现查询差异的多排序模型融合方法能够比当前流行的排序学习算法取得更好的排序性能。本文还在实验结果统计、算法有效性和时间复杂度等方面对实验进行分析。本文提出的多模型融合思想除排序学习之外,还可应用于多类分类、序列标注等问题,在信息检索、网络搜索、图像处理和生物信息学等领域具有广泛的应用前景。  
其他文献
信息化是当今世界经济和社会发展的大趋势。通过搭建专用数据中心,企业以网络服务的方式将生产、管理过程数字化、信息化,极大的提高了企业自身的生产和工作效率。随着互联网技
随着移动互联网的高速发展和林业“十三五”改革的要求,针对现阶段的林业发展状况,林业现代化水平低严重制约着我国林业的发展。现有的林业巡护系统结构单一,致使林业部门的
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。同时,随着人们对跨文本信息融合的分析,多文档自动文摘成
当今世界,科学技术突飞猛进的发展,而以高科技为基础的武器研发技术更是日新月异,现代战争可以说是新技术的“展览馆”,应用高科技的新式武器无论是破坏力还是杀伤力都达到了前所
未知环境下移动机器人的同时定位与建图(Simultaneous Localization and Mapping-SLAM)是自主探索领域的核心问题,现已受到了广泛关注,并涌现出大量的解决方法。与单机器人SLAM
当前面向主干网的网络检测系统鲜有将僵尸网络(botnet)传播检测数据纳入,并且缺少对检测到的威胁事件作进一步分析,以致无法评估出被保护对象所受的危害程度。本文尝试以出入
迁移学习是针对跨领域学习问题提出的一类机器学习方法。迁移学习在彼此不同但又相关联的两个领域之间挖掘领域共享的潜在特征和结构,使得样本数据所包含的知识可以在领域之
动力配煤技术是一项投资少、见效快,既能节约煤炭资源,又能减轻环境污染的适合中国国情的洁净煤技术。为构建“资源节约型社会”和“环境友好型社会”,动力配煤优质化技术已
Web技术的飞速发展使得全球信息的传递和共享日益增多,如何利用信息检索技术在网络资源中高效地发现和使用有价值信息一直都是行业的焦点。随着网络和信息技术的发展,网络中的
随着计算机技术发展的日新月异使得众多研究领域都离不开计算机技术。作为近十年来新兴的、非常重要的研究热点,虚拟现实技术凭借它和众多计算机学科千丝万缕的联系,已经发展成