社区问答系统中问句检索技术的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：uj_mosquito11

【摘要】

：

互联网技术的发展给人们日常生活带来便利的同时,也使人们淹没在信息的海洋中,很难找到自己所关心和需要的信息。随着web2.0的飞速发展,面对传统搜索引擎暴露出来的诸如不能

【作者】

：

杨海天

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2014年期

【关键词】

：

社区问答搜索引擎问句检索问句相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网技术的发展给人们日常生活带来便利的同时,也使人们淹没在信息的海洋中,很难找到自己所关心和需要的信息。随着web2.0的飞速发展,面对传统搜索引擎暴露出来的诸如不能对于专业的问题进行有效的检索、无法给用户带来交互式的体验等问题,近年来出现的社区问答(CQA)系统在一定程度上弥补了这些缺陷,正在给用户带来全新的搜索体验。在社区问答系中,人们可以自由地提出自己的问题,并由其他用户回答。由于任何人都可以在上面提问和回答,Yahoo! Answers等社区问答系统建立几年来已经积累了大量的历史问答对,如何有效的利用这些问答对成为众多学者研究的焦点。问句检索的研究就是为了能够有效地利用这些历史的问答对信息,快速找到与用户所关心的问题相同或相近的原有问题,缩短用户得到想要的答案的等待时间。但是,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以从社区问答系统中找到相似的问句并不是一项轻松的任务。本文主要是对问句检索进行研究,主要是解决了问句检索过程中的存在的三个问题,首先是解决了问句检索过程中缺少语义信息造成的问句歧义性问题,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以单纯的仅依靠词本身的特征很难解决问句检索的问题。针对这个问题,本文提出一种基于特征融合的社区问答问句相似度计算方法,它主要是利用问句本身的统计特征、词序特征、语义特征和问句对应的答案特征相结合来解决问句检索问题。其次是解决了问句检索过程中效率问题,在解决检索效率问题中,本文提出一种融合问句类别信息和问句对应答案类别信息的问句检索模型,该模型主要是考虑了问句的类别信息和问句所对应答案的类别信息,利用类别信息来过滤掉不相关的问句,从而提高问句检索的效率和性能。最后解决的问题是由于误分类对检索结果造成影响的问题,针对这个问题,本文提出一种融合问句主题信息和问句对应问句答案主题信息的问句检索模型,该模型主要考虑了问句本身的主题信息和问句所对应的答案主题信息,利用主题信息对相似的问句类别进行合并,从而减轻误分类对检索结果的影响。最终将这三种模型分别在Yahoo!Answers网站上抽取的真实标注数据集上进行实验,并通过多角度的对比实验表明,针对各自要解决的问题,本文提出的模型取得了良好的性能。

其他文献

基于离散增量法和神经网络的蛋白质亚细胞定位预测

随着后基因组时代的到来，生命科学的研究内容呈高速发展态势，生物信息数据迅速增长。由于生物数据具有大规模性和复杂性的特征，因此，探索如何高效处理海量生物数据的生物信息学学

学位

亚细胞定位预测特征提取离散增量法人工神经网络纠错输出编码粒子群优化算法

单幅空间移不动运动模糊图像复原技术的研究

怎样从单幅运动模糊图像复原出清晰的图像，一直是数字图像处理领域中富有挑战的问题。图像复原的目的是尽可能的恢复出原始清晰图像，因此对图像质量进行评价是必要的。若图像中

学位

图像复原运动模糊图像边缘先验模型图像处理图像质量噪声去除

基于混合策略的云计算弹性扩展设计与实现

云计算(Cloud Computing)是一种新型的分布式计算范式。它将计算任务分布在大量计算机构成的资源池上,使各种应用能够根据需求获取计算力、存储空间和各种软件服务。云计算用

学位

云计算弹性扩展神经网络静态规则混合策略

基于TL2软件事务内存机制的并发程序的精化验证

随着多核处理器的广泛应用,并发编程成为软件开发的主流方式,但是并发编程给程序员带来了很大的挑战。传统的并发编程主要是用锁机制来保证共享资源的互斥访问,锁机制是一种

学位

软件事务内存程序验证依赖—保证模拟技术精化验证

一种Zigbee传感器的手机通信接口的设计与实现

随着移动互联网的飞速发展，智能手机也风靡全球。苹果、安卓、Windows Phone等智能手机不断吸引着用户的眼球，越来越成为人们生活中不可缺少的通讯工具和计算平台。与此同时，无

学位

无线传感器智能手机音频插口LZW-Huffman压缩算法

系统级虚拟层内核化的研究

伴随着计算机体系结构的快速发展,代码迁移这一课题显得越发重要。新的体系结构如果不能广泛的被应用软件支持,将很难生存下去。龙芯是我国自主研发的通用CPU,采用MIPS架构,

学位

系统级虚拟层Linux内核QEMU跨平台接口移植设备模拟

Design and Implement an Osgi Based Vehicle Interface Module

目前，不同汽车厂商、产品类型和总线类型提取车辆信息的方式各不相同。每个汽车制造商对CAN总线信息的编码也大不相同。大多数汽车制造商都采用了CAN标准，所以车辆之间的应用层

学位

OSGi框架车载接口汽车制造远程管理

有序加权平均算子用于情感调节素材的选择

根据Gross情感调节过程理论,情感调节主要是调节者通过情境选择、情境修正、注意分配、认知重评、表达抑制五个阶段对自己的不良情感进行自我调节,自我消化的过程。主要的调

学位

情感调节情感识别OWA算子交互式赋权组合赋权

基于数据集成和监督学习的络合物发现研究

随着基因组计划的完成,人类步入后基因组时代,逐渐认识到蛋白质分子在生命过程中的重要性。研究表明,蛋白质分子并不单独发挥作用,它通常与其功能相似的蛋白质分子聚集形成大

学位

生物文献蛋白质关系蛋白质关系网络蛋白质络合物监督学习

基于负载均衡和拥塞趋势度的AODV协议改进

移动Ad hoc网络(Mobile Ad Hoc Network, MANET)是一种由无线移动节点组成,是一种无需固定网络基础设施的支持并能够迅速投入使用的网络体系,各个网络节点通过无线信道进行通

学位

Ad hoc网络AODV负载均衡拥塞趋势度

社区问答系统中问句检索技术的研究

其他学术论文