基于社区问答系统的探索式搜索查询扩展方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:chao_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然Web搜索引擎已经可以很好地帮助用户找到所需要的结果,但是仍然存在一些用户的信息需求不能得到满足。这类信息需求通常很难通过一次简单的Web搜索实现,而需要用户进行更加复杂的查询过程,这正是探索式搜索研究所关注的问题。此外,大量的研究表明,很多信息需求得不到满足的用户可以通过在社区问答系统(CQA)上提问问题,并最终等待问题的答案来达到自己的信息需求。CQA的这一特性使其成为了帮助用户更好的完成探索式搜索过程的有效的信息来源。基于上述观察,本文研究基于社区问答系统的探索式搜索查询扩展方法,研究如何从CQA中选取与用户探索式查询相关的问题和答案,并从这些问答信息中提取关键的概念,进而利用这些关键概念作为查询扩展,发现对用户搜索可能有价值的信息,以此更好的帮助用户完成探索式搜索过程。具体的,首先,本文利用CQA中问答之间的语义关系选取与用户探索式查询相关的问答信息。本文注意到CQA上用户提问或者回答问题时存在问题与答案的意图相同,不同长度的问题之间存在子主题覆盖这两种现象。基于这一观察,本文对问答信息进行子主题挖掘,并进而对问答信息中的词汇进行聚类,生成子主题标签集合以及词汇集合,从而实现问答信息子主题的发现和挖掘。随后,建立在问答信息子主题中包含的隐含关系基础上,计算子主题中词汇与用户查询的相似度,从而生成候选扩展概念。最后,基于问答信息子主题中标签集合以及词汇集合之间的关系以及候选扩展概念之间的相似性,构建概念层次模型,实现候选扩展概念的排序与选取,并基于概念层次模型对用户查询扩展多组概念序列,帮助用户完成探索式搜索过程。本文对上述所用方法进行了实验性验证,主要对候选扩展概念生成、扩展概念排序与选取的效果进行对比实验。实验结果表明,基于挖掘的问答信息子主题,本文提出的候选扩展概念生成方法以及扩展概念排序与选取方法可以有效的帮助用户发现对其探索式搜索有价值的信息。
其他文献
随着电子商务和无纸化办公深入到各个领域,基于角色的访问控制方式得到广泛的应用,并形成了NIST RBAC标准。本文在NIST RBAC的基础上提出一种新的扩展模型,扩展模型依据客体和操
本文首先对网格计算进行了简单概述,包括网格技术的发展、网格定义、网格特性以及目前较为流行的网格体系结构。网格作为一种新模式的分布式计算基础架构,因其资源和服务的异构
随着越来越多的用户通过WWW来实现信息共享和查询,某些流行的站点可能因为访问用户过多而导致服务质量下降。为了增强服务的可用性和改善网络的流量分布,人们在网络中布置镜像
随着人们对移动性的追求,以3G技术和无线局域网技术为代表的无线网络获得了巨大的发展,无线网络的角色从有线网络的补充逐渐转变为有线网络的有力竞争者,给有线网络带来了巨大的
图是计算机科学中最常用的一类抽象数据结构,特别适合表达现实世界中各种复杂的关系。在图数据挖掘领域中,有很多算法需要多次迭代才能得到最终结果。针对这一需求,基于BSP模
公众集群通信系统是一种投资规模小、见效快、性能价格比高的通信系统,是现今移动通信系统的重要补充,所以运营商正在或将要把集群通信的业务特征引入到公众移动蜂窝网络中,提供
随着科学技术的快速发展和人类知识的不断更新,作为传播知识重要载体的图书,其数量急剧增加,各图书馆馆藏亦显剧增之势,给馆藏造成巨大压力。为提高藏书质量,缓解馆藏压力,根据图书
伴随着科技不断的日新月异,推陈出新。信息家电,手持设备,无线设备等个性化设备的出现,相应的硬件和软件的迅速发展。许多设备都配有Intel,MIPS,摩托罗拉等公司生产的32位微处理器
随着第三代移动通信业务和技术的成熟,我国3G商用化指日可待。3G业务的成功开展需要强大的业务运营支撑系统(BOSS)的支持。综合帐务系统作为BOSS系统的核心子系统之一,其功能是
无线局域网(WLAN)因其频带免费、接入方便、易于移动,给人们的生活带来极大的方便,因而得到快速的发展。但它的安全性问题也同益受到人们的关注。无线局域网安全的最大问题在于