论文部分内容阅读
随着计算机和网络的飞速发展,我们已经进入了数据信息爆炸式增长的时代,如何从海量的非结构化信息中提取真正满足用户需求的信息,已经成为一个越来越重要的研究课题。自然语言问答系统应运而生,它是一个能够对计算机用户或移动用户以自然语言形式描述的问句做出高效、准确回答的问答系统。本文研究的课题是面向多领域大规模知识库的自然语言自动问答研究。本文主要研究人物、地理、机构、音乐和电影这五类的自然语言自动问答。除构建知识库外,其精髓是如何进行准确高效的自然语言问句语义理解。与传统的搜索引擎不同,自然语言自动问答系统不是简单的关键词组合匹配,而是需要理解用户意图,因此,自然语言自动问答系统面临着很多困难,主要有两点:一是需要构建大规模知识库以及能够高效查询的查询体系;二是系统的输入是日常使用的自然语言,需要对自然语言问句进行理解分析,得到用户意图。针对上述问题,本文提出了一系列解决方法,主要有以下四点:一是构建知识库。对知识存储模型做了深入研究,根据存储模型需要满足能够大规模存储数据且高效查询、又能支持知识推理的特点,决定使用RDF存储模型存储知识。本文按类别爬取了百科数据和豆瓣数据,构建RDF知识库;二是进行命名实体识别。自然语言问句理解首先需要识别命名实体,本文使用机器学习的方法进行命名实体识别,研究了两种机器学习方法:SVM统计模型和CRF统计模型,以及两种统计模型特征模板的选取问题,同时研究了选取不同的特征模板对命名实体识别准确率的影响,最终根据实验数据选取合适的模板和统计模型;三是自然语言问句理解。本文在问句已经被划分类别、分词和进行命名实体识别的基础上,利用类别信息和词性标注,提出构建问句语义图的方法来描述用户意图,针对汉语的一个实体可以有多种表述方式的问题,提出了实体消歧和属性词消歧的方法:四是构建查询机制。针对RDF知识库需要用SPARQL语言进行查询的问题,构建了自动生成SPARQL查询语句的查询机制。为了验证本文方法的高效性,本文使用数据堂提供的手机助手语音问句作为实验问句数据集,爬取百科页面和豆瓣页面作为构造知识库的数据集。实验结果表明,本文构建的知识库高效且便于知识推理,本文提出的自然语言问句理解方法能够很好地理解分析用户的查询意图,并能够返回准确的答案。