论文部分内容阅读
数据库自然语言接口(Natural Language Interface of Database,NLIDB)是人工智能研究的重要分支之一,主要涉及到计算机自然语言理解和数据库用户接口等关键技术的研究。在用NLIDB访问数据库时,用户输入的是自然语言查询语句,因此对其自动识别的程度是数据库自然语言接口的一项关键技术。目前,国外围绕英、日等语种的这方面的研究已渐趋成熟,但是由于汉语中词与词间没有明显界限、语法复杂以及语义繁多等原因,对汉语自然语言的自动识别极大地制约了NLIDB应用的拓展。本文在深入研究计算机自然语言处理技术的基础上,围绕汉语自然语言自动识别中上述存在的问题设计实现了基于不确定有限自动机(NFA)模型的数据库自然语言通用接口系统NLI-NFA。 NLI-NFA系统实现过程分为三大部分:分词、自然语言评判和中间代码以及目标代码生成。在分词过程中,依据汉语长短语出现频率高的特点,提出了带回溯的最大匹配算法,该算法能够对汉语查询语句进行准确切词,时间复杂度较低。在自然语言评判过程中,采用了不确定有限自动机模型,根据汉语查询语句语法简单且句子间无上下文相关的特点,定义了受限语言文法和状态集合,将分词结果作为NFA模型的输入字符,NFA模型进行带回溯的状态转移,若状态转移至终态,则说明该查询语句可以被NFA模型所接受,即该自然语言可以被理解;否则其无法被理解,请求用户转化语句格式重新输入。在中间代码以及目标代码生成过程中,若该查询语句被接受,提出了一套中间代码生成机制来生成中间代码,最后由应答机制将中间代码转化成目标SQL语言,获得查询请求,进行数据库查询访问,最后根据查询结果给予用户相应的应答。 利用完成的NLI-NFA系统对学校的学籍管理数据进行了实际查询访问,实验结果表明本文实现的系统是有效的。 全文共分六章,各章的内容分别为: 第一章简要介绍了数据库自然语言接口的研究意义、特点以及国内外研究的动态,提出了当前研究中存在的问题,确定了本文的研究范围和基本框架。 第二章主要介绍了系统采用的非确定有限自动机模型以及系统定义的文法、状态集合等。