论文部分内容阅读
自然语言处理的核心内容就是研究“怎样让计算机理解并自动生成自然语言”,作为语言理解第一步的自动句法分析一直是本领域的一大技术难关。而计算机进行自动句法分析,首先要求将语言学家归纳和总结而形成一系列语法规则转化为形式化描述,建立一套相应的结构化体系,以便于计算机处理。 黎锦熙先生在《新著国语文法》中建立的“句本位”语法体系是第一个比较系统而完整的现代汉语语法体系,也称为“黎氏语法”。它主张汉语的语法分析应以句法为主,在形式与意义的结合当中强调句法格局对句子意义表达的重要性。在当前中文信息处理领域普遍面临“语义瓶颈”的情况下,本文选择句本位语法理论作为指导思想来构建现代汉语树库,意在促进句法分析与语义理解的有效融合。在系统地梳理黎氏图解析句法(以下简称图解法)之后,结合计算机信息处理的特点,本文首先设计了一套形式化的标注规范(包括语法标记集和XML结构),与图解法的图形表示相对应,使之能为计算机存储和处理。以该设计为基础开发实现了可视化的图解标注工具,并利用其开展现代汉语文本的语料标注,最终构建完成了规模为215505字,15426句的现代汉语树库。 本文的主要工作如下: 1.梳理语法学术语。语法术语是认识和理解语法体系的关键。在与其它语法学派的对话和交流中,黎氏语法对部分术语也有了相当程度的调整。为了能与现今通用的术语相对接,本文首先对黎氏语法的术语进行了系统的梳理,作为确立语法标记集的基础。 2.制定句法树库的标注规范。通过对该语法理论系统地学习与研究,本文制定一套能表示图解法中的结构信息的标注规范,将语言学领域的句本位语法理论形式化,以应用于中文信息处理领域。 3.实现可视化标注工具。以标注规范为指导,设计实现了可视化标注工具,在计算机上为用户提供了图解析句的功能,并将图形标注结果转化为XML格式存储下来。 4.组织标注语料工作。在标注实施过程中,选择适合的语料,并对其进行预处理。此外,在标注过程中不断收集无法被标注规范描述的语言现象,及时修正规范,并告知标注工作者。为保证标注质量,定期抽取一定样本的语料进行核查。