论文部分内容阅读
查询中的歧义是查询分析中需要重点考虑的问题之一。在不同的查询中存在着不同类型的歧义,主要包括以下三种:命名实体查询中实体名的歧义,关键词查询的用户意图歧义,以及查询中时间、地点等隐式因素的歧义。本文针对这些不同的查询歧义性进行深入分析研究,论文主要内容包括:(1)针对命名实体查询消歧问题,首先提出一个半监督的消歧方法,对大规模未标注语料进行自动消歧标注,解决命名实体查询消歧任务中标注语料不足的问题。在设计消歧模型时,引入实体库的一些结构化信息,以提高消歧模型的性能。实验结果表明,实体库的结构化信息大幅度提高了算法的消歧性能。进一步,针对有标注语料的情况,将命名实体查询消歧看作是一个排序问题,提出利用排序学习算法融合消歧特征对实体名的候选命名实体进行排序,从而实现消歧。通过实验对比,验证了排序学习在消歧任务上的优势。除了对命名实体查询进行消歧,在确定其指代命名实体后,进而提出一个利用多篇维基百科文章的方法进行命名实体信息摘要,方便用户快速了解该命名实体。实验结果说明了利用多文档能更准确地衡量出概念对于命名实体的重要度,提高摘要的质量。(2)针对关键词查询用户意图可能存在歧义的问题,提出用户查询意图模型,基于用户输入的关键词查询,推测用户意图,进而为用户推荐合适的问题,帮助用户更清晰地表达自己的查询意图。在用户查询意图模型中,利用从问答社区问题集中统计得到的模板为查询生成候选问题,以覆盖更多的生僻查询。模型对问题的生成过程进行建模,从而得到不同问题的产生概率,在此基础上对候选问题进行排序。实验结果验证了用户查询意图模型在基于关键词推荐问题这个任务上可以取得不错的效果。(3)针对查询中隐式因素的歧义性,本文以时间因素为例进行分析研究。首先,通过综合考虑查询中主题词和上下文对查询时间敏感度的影响,对词的上下文时间敏感度进行优化建模,得到词在不同上下文中的时间敏感度,用于检测时间敏感查询。实验结果表明此方法能有效地检测出时间敏感查询。进一步,根据时间敏感查询对结果时效要求的不同,对查询的时效长度进行分类,并在此基础上设计相应的时间特征,用于改进时间敏感查询的问题检索排序性能。实验结果验证了基于查询时效长度设计的时间特征的有效性。