问答式信息检索中语义蕴函关系识别研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:lwsun_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义蕴涵关系识别在自然语言处理中有广泛的应用。在多文档自动文摘中可以用来进行文摘句的选择,解决句子冗余;在机器翻译中,可以判断目标翻译句子与双语语料库中句子的语义蕴涵关系;在问答式信息检索的答案提取模块中利用语义蕴涵关系识别可以对问题和候选答案进行匹配,特别是在常用问题库(Frequently Asked Question,FAQ)问答系统中,可以表示目标问句和候选问句的相似程度。开放领域的问答式信息检索是指系统接受用户以自然语言形式描述的提问,并从海量数据中查找出该问题的准确、简洁的答案。随着互联网信息日益丰富,传统搜索引擎存在的局限性也越来越明显,比如返回信息太多、信息无关等,而开放领域的问答式信息检索能够提供用户真正有用、精确的信息。  本文研究实现了两种语义蕴涵关系识别的方法。  第一种是基于词汇和句法结构的语义蕴涵关系识别方法。基于词汇的匹配用到了Unigram和Bigram匹配;在此基础上,由句法依赖关系进一步实现句子之间蕴涵关系的判断,并使用RTE的数据集检测系统的性能。  第二种是使用分类器进行语义蕴涵关系判断,采用的特征提取方法包括基于词汇重复度、基于句法结构、命名实体识别等信息以及基于文档统计信息和语义信息的特征提取,一共提取了十一个特征,并使用信息增益对每个特征的重要程度进行量化。采用RTE公开评测数据集进行测试,使用Boost,Bayes,SVM等六种分类器实现蕴涵关系判断。  最后,设计一个开放领域的自动问答系统,在答案匹配过程中使用了基于词汇和句法结构的语义蕴涵识别方法以及基于分类器的语义蕴涵识别两种方法,对信息检索模块返回的备选答案进行抽取和判断,以提高系统的准确率。使用TREC的数据集进行测试,并对实验结果进行了分析和评价。
其他文献
为了解决传统BIOS所面临的问题,Intel推出了统一可扩展固件接口(UEFI)的规范标准,定义了操作系统与平台固件之间的可扩展接口。目前,UEFI BIOS凭借自身的模块化、易扩展、预启动
深层神经网络是一种高变度的函数(highly-varying function),与许多经典的浅层结构算法相比,以深层神经网络为代表的深层结构有很多优点,近年来引起了极大的关注,并且在逐步在分
学位
随着信息与网络技术的快速发展,大数据已经影响到每一个行业。大数据的价值在于从各种类型的数据中快速获取有用的信息,而数据预处理是整个大数据处理周期中至关重要的环节,高质
Web服务是一种新兴的Web应用方式,是一个崭新的分布式对象模型,近年来得到了迅速的发展。随着其应用范围以及Web服务动态组合需求的扩大,Web服务的发布与发现,已经成为Web服务系
随着计算机技术、互联网络和移动网络技术的快速发展,信息的存储容量和传送能力不断提高,电子商务、普适计算、社交网络、物联网、云计算等各种形式的网络应用不断出现并得到快
最优化问题是工程实践和科学研究中普遍存在的问题,其中多目标优化问题是指那些需要同时优化多个目标的问题。一般来说,这多个目标是相互冲突的,因此,和单目标优化不同,多目标优化
模型检测是自动化地验证系统行为满足给定性质的一种技术。它的基本做法是通过对系统所有可能的行为进行探索来证明系统满足给定的性质。模型检测面临“状态爆炸”问题,即系统
随着社交媒体的快速发展,基于用户的情感分析逐渐引起了研究领域的关注。情感分析指的是根据用户在社交媒体上评论自动地分析出用户情感极性。然而,用户仅仅在他们比较关心或者
全球随时随地都在产生着各种各样的数据,例如股票市场的交易数据、电子商务的订单数据、科学卫星的探测数据等等。这些数据都不是固定在某个地点,而是根据所属的应用种类通过计