论文部分内容阅读
本文的主要研究内容是探索式查询中的若干关键技术。探索式查询主要通过交互策略来获得用户输入查询的语用信息。在本文中,主要用到用户选取的导引关键词、用户对检索结果进行的标注、用户通过根据自身需要提供给系统的标签覆盖度、以及用户主观猜测的检索结果标注量百分比。通过收集这些语用信息,进而可以生成语义信息来满足查询用户更高层次的查询需求,最终达到增强检索质量的目的。本文的工作主要集中在查询需求的两个方面:learning to rank与investigate。本文第一章主要从总体上介绍了探索式查询技术及一些相关技术。本文的主要部分从第二章开始,该章节针对learning to rank提出了一种只依赖较少用户给出的语用信息和很少标记量的检索结果重排序算法。本文第三章到第六章主要针对检索中存在的investigate需求展开。本文在ACM SIGIR 2006 Workshop提出的探索式查询简单框架的基础上,首先对探索式查询的评价方法进行了调查和研究,然后本着优化评价指标的目的,利用部分现有技术构思实现了investigate需求的探索式查询导引结构,然后逐一对各个部分的关键技术进行了研究或改进。这些关键技术包括:探索式查询评价、领域关键词提取、主题聚类、探索式交互层级结构生成和词关系分类。第三章中,主要介绍了用户信息需求,探索式查询评价以及总体设计。第四章主要介绍了本文所采用的领域背景语料及大规模网络语料中的关键词提取方法,并通过加入词排序调整功能使输出结果可控。本章接下来在对主题聚类的研究与改进的基础上,提出了探索式查询导引结构。本文改进的主题词聚类方法比直接使用LSA词矩阵的聚类方法性能有所提高。在接下来的第五章中,作者改进了基于模式库与基于SVM两种词关系分类方法,这两种方法分别对应用户可能需要的两种查询行为,即准确率优先与召回率优先。第六章中,作者使用本文提出的探索式查询评价指标,对本文的方法做出了评价。从评价结果来看,本文提出的探索式查询原型性能在探索引导性能方面大幅优于当前我们使用的主流查询扩展系统。本文的独创性贡献主要体现在如下几点:第一,应用全信息理论探索实现了一种检索结果重排序新算法,它可以通过用户提供的少量语用信息来增强用户标注在检索结果重排序中的作用,从而在将来可以被用来避免构建检索结果重排序时所进行的大规模限定领域训练。第二,本文将现有主要文本处理技术加以整合,进而构建了一种基于关键词导引的探索式查询方法,以实现更强的功能。第三,通过在探索式查询中使用交互策略来收集用户的语用信息,从而在简单语法处理的支持下,生成一种导引语义框架。第四,本文对探索式查询系统的评价方法与指标进行了研究,并就本文提出的系统原型分别与百度(baidu)、google和基于LSA的查询扩展据此指标进行了对比。本文的方法突破了google与百度(baidu)导引信息量不足的瓶颈。根据导引内容信息量、导引内容阅读量与交互步骤数三项指标的综合对比来看,google与baidu由于导引信息量不足综合评价为0分,基于LSA的查询扩展能够提供简单查询导引,其功能综合评价平均为0.0095分,本文的方法得到了0.25分,性能取得大幅提高。最后,本文一些章节对现有部分具体技术进行了改进,并得了一定效果。