论文部分内容阅读
基于规则的口语对话系统中的文法规则通常由领域专家和计算机语言学家手工设计,需要依赖专家的专业知识和经验,这对于普通开发人员来说是无法完成的。另外,手工设计的文法移植性差,根据某一领域设计的文法规则很难移植到其他领域继续使用,同样功能的口语对话系统对于不同领域都需要领域专家重新设计文法规则,存在大量的重复劳动,造成巨大的人力和物力浪费。随着社会需求的不断增大,系统规模空前扩大,文法规则的获取成了口语对话系统研发的主要瓶颈。
本文针对口语对话系统中语言的特点,以一种上下文无关增强文法为对象,对口语对话系统中文法规则的自动获取技术进行了研究。主要工作包括:
(1)对比分析常见形式文法的特点和性能,重点研究一种符合汉语口语特点的上下文无关增强文法,根据口语对话系统中语言的特点,选定该文法为对象进行文法规则自动推导技术的研究。
(2)提出一种基于句子分割的文法规则自动推导算法。基本思想是:用初始规则集对训练例句进行分析,若不能得到完整的语法树,则先对分析得到的片断进行消歧和归一化,然后根据顶层片断递归地推导出缺少的文法规则,并更新已有的规则集。研究歧义片断的消除和归一化策略,为了提高算法性能,探讨并给出一种算法的改进方案。
(3)研究面向领域任务的文法测评方法,给出一套灵活的、可领域定制的文法评测方法。使用该方法在天气预报查询领域对算法的输出文法进行评测,结果显示,输出文法的句法分析准确率在初始规则集为空时达到了64.8%,在初始规则集只包含日期相关规则时达到了86.4%。