社区问答系统中问句检索技术的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:uj_mosquito11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展给人们日常生活带来便利的同时,也使人们淹没在信息的海洋中,很难找到自己所关心和需要的信息。随着web2.0的飞速发展,面对传统搜索引擎暴露出来的诸如不能对于专业的问题进行有效的检索、无法给用户带来交互式的体验等问题,近年来出现的社区问答(CQA)系统在一定程度上弥补了这些缺陷,正在给用户带来全新的搜索体验。在社区问答系中,人们可以自由地提出自己的问题,并由其他用户回答。由于任何人都可以在上面提问和回答,Yahoo! Answers等社区问答系统建立几年来已经积累了大量的历史问答对,如何有效的利用这些问答对成为众多学者研究的焦点。问句检索的研究就是为了能够有效地利用这些历史的问答对信息,快速找到与用户所关心的问题相同或相近的原有问题,缩短用户得到想要的答案的等待时间。但是,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以从社区问答系统中找到相似的问句并不是一项轻松的任务。本文主要是对问句检索进行研究,主要是解决了问句检索过程中的存在的三个问题,首先是解决了问句检索过程中缺少语义信息造成的问句歧义性问题,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以单纯的仅依靠词本身的特征很难解决问句检索的问题。针对这个问题,本文提出一种基于特征融合的社区问答问句相似度计算方法,它主要是利用问句本身的统计特征、词序特征、语义特征和问句对应的答案特征相结合来解决问句检索问题。其次是解决了问句检索过程中效率问题,在解决检索效率问题中,本文提出一种融合问句类别信息和问句对应答案类别信息的问句检索模型,该模型主要是考虑了问句的类别信息和问句所对应答案的类别信息,利用类别信息来过滤掉不相关的问句,从而提高问句检索的效率和性能。最后解决的问题是由于误分类对检索结果造成影响的问题,针对这个问题,本文提出一种融合问句主题信息和问句对应问句答案主题信息的问句检索模型,该模型主要考虑了问句本身的主题信息和问句所对应的答案主题信息,利用主题信息对相似的问句类别进行合并,从而减轻误分类对检索结果的影响。最终将这三种模型分别在Yahoo!Answers网站上抽取的真实标注数据集上进行实验,并通过多角度的对比实验表明,针对各自要解决的问题,本文提出的模型取得了良好的性能。
其他文献
随着后基因组时代的到来,生命科学的研究内容呈高速发展态势,生物信息数据迅速增长。由于生物数据具有大规模性和复杂性的特征,因此,探索如何高效处理海量生物数据的生物信息学学
怎样从单幅运动模糊图像复原出清晰的图像,一直是数字图像处理领域中富有挑战的问题。图像复原的目的是尽可能的恢复出原始清晰图像,因此对图像质量进行评价是必要的。若图像中
云计算(Cloud Computing)是一种新型的分布式计算范式。它将计算任务分布在大量计算机构成的资源池上,使各种应用能够根据需求获取计算力、存储空间和各种软件服务。云计算用
随着多核处理器的广泛应用,并发编程成为软件开发的主流方式,但是并发编程给程序员带来了很大的挑战。传统的并发编程主要是用锁机制来保证共享资源的互斥访问,锁机制是一种
随着移动互联网的飞速发展,智能手机也风靡全球。苹果、安卓、Windows Phone等智能手机不断吸引着用户的眼球,越来越成为人们生活中不可缺少的通讯工具和计算平台。与此同时,无
伴随着计算机体系结构的快速发展,代码迁移这一课题显得越发重要。新的体系结构如果不能广泛的被应用软件支持,将很难生存下去。龙芯是我国自主研发的通用CPU,采用MIPS架构,
目前,不同汽车厂商、产品类型和总线类型提取车辆信息的方式各不相同。每个汽车制造商对CAN总线信息的编码也大不相同。大多数汽车制造商都采用了CAN标准,所以车辆之间的应用层
根据Gross情感调节过程理论,情感调节主要是调节者通过情境选择、情境修正、注意分配、认知重评、表达抑制五个阶段对自己的不良情感进行自我调节,自我消化的过程。主要的调
随着基因组计划的完成,人类步入后基因组时代,逐渐认识到蛋白质分子在生命过程中的重要性。研究表明,蛋白质分子并不单独发挥作用,它通常与其功能相似的蛋白质分子聚集形成大
移动Ad hoc网络(Mobile Ad Hoc Network, MANET)是一种由无线移动节点组成,是一种无需固定网络基础设施的支持并能够迅速投入使用的网络体系,各个网络节点通过无线信道进行通