用户查询歧义性分析研究

被引量 : 0次 | 上传用户:varylife
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询中的歧义是查询分析中需要重点考虑的问题之一。在不同的查询中存在着不同类型的歧义,主要包括以下三种:命名实体查询中实体名的歧义,关键词查询的用户意图歧义,以及查询中时间、地点等隐式因素的歧义。本文针对这些不同的查询歧义性进行深入分析研究,论文主要内容包括:(1)针对命名实体查询消歧问题,首先提出一个半监督的消歧方法,对大规模未标注语料进行自动消歧标注,解决命名实体查询消歧任务中标注语料不足的问题。在设计消歧模型时,引入实体库的一些结构化信息,以提高消歧模型的性能。实验结果表明,实体库的结构化信息大幅度提高了算法的消歧性能。进一步,针对有标注语料的情况,将命名实体查询消歧看作是一个排序问题,提出利用排序学习算法融合消歧特征对实体名的候选命名实体进行排序,从而实现消歧。通过实验对比,验证了排序学习在消歧任务上的优势。除了对命名实体查询进行消歧,在确定其指代命名实体后,进而提出一个利用多篇维基百科文章的方法进行命名实体信息摘要,方便用户快速了解该命名实体。实验结果说明了利用多文档能更准确地衡量出概念对于命名实体的重要度,提高摘要的质量。(2)针对关键词查询用户意图可能存在歧义的问题,提出用户查询意图模型,基于用户输入的关键词查询,推测用户意图,进而为用户推荐合适的问题,帮助用户更清晰地表达自己的查询意图。在用户查询意图模型中,利用从问答社区问题集中统计得到的模板为查询生成候选问题,以覆盖更多的生僻查询。模型对问题的生成过程进行建模,从而得到不同问题的产生概率,在此基础上对候选问题进行排序。实验结果验证了用户查询意图模型在基于关键词推荐问题这个任务上可以取得不错的效果。(3)针对查询中隐式因素的歧义性,本文以时间因素为例进行分析研究。首先,通过综合考虑查询中主题词和上下文对查询时间敏感度的影响,对词的上下文时间敏感度进行优化建模,得到词在不同上下文中的时间敏感度,用于检测时间敏感查询。实验结果表明此方法能有效地检测出时间敏感查询。进一步,根据时间敏感查询对结果时效要求的不同,对查询的时效长度进行分类,并在此基础上设计相应的时间特征,用于改进时间敏感查询的问题检索排序性能。实验结果验证了基于查询时效长度设计的时间特征的有效性。
其他文献
注重材料艺术的再设计,就要认识材料、把握材料,打破传统材料的常规运用。只有挖掘材料本身的设计内涵,并看到它独特的魅力,再通过设计手段把美妙之处尽善尽美地体现出来,只
当代西方复杂的社会现实对自由民主模式的挑战要求民主理论家们从理论上进行建构性回应。在一种"紧缩策略"的民主构想中,不仅把民主的价值意蕴从民主的含义中剥离出来是可能
目的:完成白内障计算机智能分级系统的建立;探讨白内障的皮质性及核性混浊与年龄、性别、高度近视、糖尿病等相关影响因素之间的关联。方法:选取四川省人民医院2016年1月-2016年8月的白内障(年龄>50岁)患者938只眼,应用裂隙灯前节照相系统采集图片后,用LOCSIII分级标准进行晶体混浊分级。图像经过特征提取等处理,将分级结果及相应图像特征对应后输入计算机进行学习,建立一个白内障的智能分级
目的建立LC-MS/MS法测定大鼠组织中银杏内酯B的浓度,并将此方法应用于银杏内酯B注射液在Wistar大鼠体内的组织分布研究。方法色谱柱:AQVASIL C18柱(100 mm×2.0 mm I.D.,5μm
以中草药为主,以肝论治慢性前列腺炎在临床中起到良好效果。
文章主要针对我国辽宁省阜新市地下水环境风险评价技术方法储备不足等问题,提出了区域地下水环境风险评价的实用技术方法。在实际风险评价过程中,文章主要按照逐级筛选以及分
<正>时间:2014年1月-2015年1月一、课题的研究背景及研究意义当课改的春风拂面而来时,我们的课堂变得更加生气勃勃了。学生的心灵得到解放,学生的个性得到张扬,他们敢想、敢
会议
学术期刊在学术、知识与思想的生产与传播体系中,具有不可或缺的重要地位,这决定了学术期刊与学术规范之间的内在逻辑关联。人文社会科学学术期刊存在的主要问题是,“论文集
新疆,地处中国西北边陲,作为丝绸之路上一颗璀璨明珠,由于其独特的地理位置和历史原因,自古以来就是东西文化交汇、多民族文化的碰撞与共生,造就了新疆今天的多民族、多文化的特点
随着农业经济结构的调整,我国养鹅业得到了蓬勃发展,不仅在朝着集约化、规模化、产业化的方向迈进,而且已成为农村经济中的一个重要产业。要想提高种鹅养殖的经济效益,就必须