论文部分内容阅读
互联网技术的发展给人们日常生活带来便利的同时,也使人们淹没在信息的海洋中,很难找到自己所关心和需要的信息。随着web2.0的飞速发展,面对传统搜索引擎暴露出来的诸如不能对于专业的问题进行有效的检索、无法给用户带来交互式的体验等问题,近年来出现的社区问答(CQA)系统在一定程度上弥补了这些缺陷,正在给用户带来全新的搜索体验。在社区问答系中,人们可以自由地提出自己的问题,并由其他用户回答。由于任何人都可以在上面提问和回答,Yahoo! Answers等社区问答系统建立几年来已经积累了大量的历史问答对,如何有效的利用这些问答对成为众多学者研究的焦点。问句检索的研究就是为了能够有效地利用这些历史的问答对信息,快速找到与用户所关心的问题相同或相近的原有问题,缩短用户得到想要的答案的等待时间。但是,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以从社区问答系统中找到相似的问句并不是一项轻松的任务。本文主要是对问句检索进行研究,主要是解决了问句检索过程中的存在的三个问题,首先是解决了问句检索过程中缺少语义信息造成的问句歧义性问题,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以单纯的仅依靠词本身的特征很难解决问句检索的问题。针对这个问题,本文提出一种基于特征融合的社区问答问句相似度计算方法,它主要是利用问句本身的统计特征、词序特征、语义特征和问句对应的答案特征相结合来解决问句检索问题。其次是解决了问句检索过程中效率问题,在解决检索效率问题中,本文提出一种融合问句类别信息和问句对应答案类别信息的问句检索模型,该模型主要是考虑了问句的类别信息和问句所对应答案的类别信息,利用类别信息来过滤掉不相关的问句,从而提高问句检索的效率和性能。最后解决的问题是由于误分类对检索结果造成影响的问题,针对这个问题,本文提出一种融合问句主题信息和问句对应问句答案主题信息的问句检索模型,该模型主要考虑了问句本身的主题信息和问句所对应的答案主题信息,利用主题信息对相似的问句类别进行合并,从而减轻误分类对检索结果的影响。最终将这三种模型分别在Yahoo!Answers网站上抽取的真实标注数据集上进行实验,并通过多角度的对比实验表明,针对各自要解决的问题,本文提出的模型取得了良好的性能。