面向多领域大规模知识库的自然语言自动问答研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户：tt1234554321

【摘要】

：

随着计算机和网络的飞速发展,我们已经进入了数据信息爆炸式增长的时代,如何从海量的非结构化信息中提取真正满足用户需求的信息,已经成为一个越来越重要的研究课题。自然语

【作者】

：

朱敏

【机构】

：

西南交通大学

【出处】

：

西南交通大学

【发表日期】

：

2015年期

【关键词】

：

RDF知识库命名实体识别语义图消歧 SPARQL查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和网络的飞速发展,我们已经进入了数据信息爆炸式增长的时代,如何从海量的非结构化信息中提取真正满足用户需求的信息,已经成为一个越来越重要的研究课题。自然语言问答系统应运而生,它是一个能够对计算机用户或移动用户以自然语言形式描述的问句做出高效、准确回答的问答系统。本文研究的课题是面向多领域大规模知识库的自然语言自动问答研究。本文主要研究人物、地理、机构、音乐和电影这五类的自然语言自动问答。除构建知识库外,其精髓是如何进行准确高效的自然语言问句语义理解。与传统的搜索引擎不同,自然语言自动问答系统不是简单的关键词组合匹配,而是需要理解用户意图,因此,自然语言自动问答系统面临着很多困难,主要有两点：一是需要构建大规模知识库以及能够高效查询的查询体系；二是系统的输入是日常使用的自然语言,需要对自然语言问句进行理解分析,得到用户意图。针对上述问题,本文提出了一系列解决方法,主要有以下四点：一是构建知识库。对知识存储模型做了深入研究,根据存储模型需要满足能够大规模存储数据且高效查询、又能支持知识推理的特点,决定使用RDF存储模型存储知识。本文按类别爬取了百科数据和豆瓣数据,构建RDF知识库；二是进行命名实体识别。自然语言问句理解首先需要识别命名实体,本文使用机器学习的方法进行命名实体识别,研究了两种机器学习方法：SVM统计模型和CRF统计模型,以及两种统计模型特征模板的选取问题,同时研究了选取不同的特征模板对命名实体识别准确率的影响,最终根据实验数据选取合适的模板和统计模型；三是自然语言问句理解。本文在问句已经被划分类别、分词和进行命名实体识别的基础上,利用类别信息和词性标注,提出构建问句语义图的方法来描述用户意图,针对汉语的一个实体可以有多种表述方式的问题,提出了实体消歧和属性词消歧的方法：四是构建查询机制。针对RDF知识库需要用SPARQL语言进行查询的问题,构建了自动生成SPARQL查询语句的查询机制。为了验证本文方法的高效性,本文使用数据堂提供的手机助手语音问句作为实验问句数据集,爬取百科页面和豆瓣页面作为构造知识库的数据集。实验结果表明,本文构建的知识库高效且便于知识推理,本文提出的自然语言问句理解方法能够很好地理解分析用户的查询意图,并能够返回准确的答案。

其他文献

基于Internet环境的构件/服务组装方法研究

随着SOA架构的不断发展和成熟,整个IT业在向其转变。企业通过整合由其他企业提供的服务资源形成新的服务来满足用户不断变化的需求,从而增强市场竞争力。然而,各企业对外提供

学位

服务组装需求拆分服务选择异构消息转换

半监督判别分析方法研究

判别分析(DiscriminantAnalysis)是模式识别领域的重要研究内容之一。过去几十年来,判别分析在理论和应用上均取得了很大进展。然而,在一些实际应用中,当没有足够多的有标注

学位

判别分析半监督学习谱归一化割拉普拉斯人脸识别

多视角的唇动身份识别研究

基于多视角的唇动的身份识别技术,是多视角人脸识别和正面唇动身份识别的生物特征识别技术的延伸和组合。说话时的唇动信息,既体现了说话人嘴唇的固有生理特点,也反映了运动

学位

多视角身份识别嘴唇运动特征提取

倒影图像检测

水面倒影图像是非常常见的一种自然景观图像。目前对水面倒影图像的研究多集中在如何拍摄、制作虚拟现实的实现上,而基于视觉的对水面倒影图像理解和检测方面国内外都未开展

学位

倒影图像区域分割图像配准快速傅立叶变换边缘检测

过程逻辑的形式化描述与过程解释器设计方法

学位

Wyner-Ziv视频编码中边信息的生成方法研究

随着信息化时代的到来，人类对信息的需求越来越丰富。作为诸多计算机研究中最为活跃领域之一的视频编码技术也随着应用要求的改变而不断发展。传统视频压缩编码标准，如MPEG-X系

学位

视频编码技术边信息Wyner-Ziv帧自回归模型运动补偿

基于本体的企业模型互操作研究

随着信息化技术的迅猛发展和国际化市场竞争的日趋激烈,企业的全球化与信息化已成为必然趋势,各企业之间的业务协作越来越频繁,也越来越复杂。然而由于各个伙伴企业的模型在

学位

互操作本体语义标记语义映射

BT主动测量和分析

BT是一种P2P协议,以集中式结构为基础的应用层协议。该协议及其软件自出现以来,因其强大的文件共享功能而备受欢迎。BT在带来便利的同时,也带来许多问题,如占用网络带宽、传

学位

BT主动测量资源分布可用性

基于嵌入式移动GPU的图像编解码并行优化

ARM Cortex-A15系列处理器是当前最新的嵌入式ARM SoC,该系列处理器首次集成了Mali-T600系列的移动GPU,该系列GPU率先支持OpenCL计算框架,可以利用GPGPU (General-Purpose co

学位

ARM Cortex-A15Mali GPUGPGPU技术异构多核计算Jpeg解码Mpeg4编码Neon指令多媒体加速

入侵容忍的数据库中数据隔离技术研究

数据库是信息系统的核心,集中存放着大量重要而又敏感的数据,是最吸引攻击者的目标,一旦数据被黑客窃取或者是破坏,其损失难以估量。传统的数据隔离技术不能有效地防护黑客的

学位

数据隔离控制策略操作日志数据一致性

面向多领域大规模知识库的自然语言自动问答研究

其他学术论文