论文部分内容阅读
数据库自然语言接口(NaturalLanguageInterfacetoDatabase,NLIDB)因其简化了人机交互的过程,使用户可以用自己熟悉的语言查询数据库而广受欢迎,因而自然语言查询接口的研究具有重要的理论意义和研究价值。实验室课题组已经初步实现了一个数据库自然语言接口,可以支持较复杂的自然语言查询。该数据库自然语言接口可处理一系列不相关的问题,但对于前后关联的问题尚不能处理,具有局限性。本文在原数据库自然语言接口的基础上,对交互问答及相关技术进行了研究,主要包括语义网络的构建、指代消解和用户反馈等,研究成果主要有: (1)构建了一个基于知网(HowNet)的语义网络,用以解析问句中相关词语的语义,保证交互问答流程的实现。该语义网络基于HowNet中的义原和概念而构建,将义原组织成义原树,将概念拆分成基本义原并与义原树连接。通过义原树的层级关系可以得到一个概念的各种属性,比如概念是否指人、概念的单复数性质等,具有很高的通用性和实用性。 (2)实现了一个基于规则和机器学习相结合的汉语人称代词消解系统,通过消解问题中的人称代词,完成对一系列相关问题的处理。当今的指代消解技术正从单一的基于规则的技术向基于机器学习的技术发展,本文提取出了包括句法信息、语义信息等在内的十三个特征属性,首先采用基于规则的方法进行过滤,排除掉属性冲突的指代对,然后利用训练好的C4.5决策树进行消解。实验表明,消解的F指数达到88.7%,具有良好的效果。 (3)实现了一个基于数据库自然语言接口的交互问答系统,将指代消解与NLIDB相结合,用以处理一系列含有人称代词的前后关联问题。由于NLIDB具有一问一答的特点,因此问题中的代词指代的只能是之前句子中出现的名词,而且该名词与代词的距离不会太远。这个特点使得指代消解更加具有针对性,准确率更加有保证。该系统同时利用指代消解中产生的候选项和构建的常问问题库,实现了用户反馈模块,该模块可提供一至三个候选问题供用户选择,提高了系统的交互性。 最后将该系统应用于五个领域,用以验证本文实现的基于NLIDB的交互问答系统的有效性和可移植性。五个领域分别为教务信息查询领域、列车信息查询领域、彩票信息查询领域、天气信息查询领域、NBA赛事信息查询领域。实验表明,该系统基本能够有效的处理多种查询。