句本语法体系的现代汉语树库构建

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:J2EE_BOY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理的核心内容就是研究“怎样让计算机理解并自动生成自然语言”,作为语言理解第一步的自动句法分析一直是本领域的一大技术难关。而计算机进行自动句法分析,首先要求将语言学家归纳和总结而形成一系列语法规则转化为形式化描述,建立一套相应的结构化体系,以便于计算机处理。  黎锦熙先生在《新著国语文法》中建立的“句本位”语法体系是第一个比较系统而完整的现代汉语语法体系,也称为“黎氏语法”。它主张汉语的语法分析应以句法为主,在形式与意义的结合当中强调句法格局对句子意义表达的重要性。在当前中文信息处理领域普遍面临“语义瓶颈”的情况下,本文选择句本位语法理论作为指导思想来构建现代汉语树库,意在促进句法分析与语义理解的有效融合。在系统地梳理黎氏图解析句法(以下简称图解法)之后,结合计算机信息处理的特点,本文首先设计了一套形式化的标注规范(包括语法标记集和XML结构),与图解法的图形表示相对应,使之能为计算机存储和处理。以该设计为基础开发实现了可视化的图解标注工具,并利用其开展现代汉语文本的语料标注,最终构建完成了规模为215505字,15426句的现代汉语树库。  本文的主要工作如下:  1.梳理语法学术语。语法术语是认识和理解语法体系的关键。在与其它语法学派的对话和交流中,黎氏语法对部分术语也有了相当程度的调整。为了能与现今通用的术语相对接,本文首先对黎氏语法的术语进行了系统的梳理,作为确立语法标记集的基础。  2.制定句法树库的标注规范。通过对该语法理论系统地学习与研究,本文制定一套能表示图解法中的结构信息的标注规范,将语言学领域的句本位语法理论形式化,以应用于中文信息处理领域。  3.实现可视化标注工具。以标注规范为指导,设计实现了可视化标注工具,在计算机上为用户提供了图解析句的功能,并将图形标注结果转化为XML格式存储下来。  4.组织标注语料工作。在标注实施过程中,选择适合的语料,并对其进行预处理。此外,在标注过程中不断收集无法被标注规范描述的语言现象,及时修正规范,并告知标注工作者。为保证标注质量,定期抽取一定样本的语料进行核查。
其他文献
随着多媒体技术以及计算机互联网技术的迅速发展,人们生活中触手可及的多媒体数据呈现爆发式的增长趋势,从而形成了海量多媒体数据。同时,由于新一代交互式网络技术的出现,使
OpenSim是一个遵循BSD开源协议的分布式三维虚拟环境服务器,允许任何遵循林顿实验室网络协议的客户端访问。为开发高逼真性、交互性和沉浸性的三维虚拟学习平台提供了基础的
Web服务是一种使用标准的工业技术来描述(WSDL)、发布/发现(UDDI)和通讯(SOAP)的基于Internet的新型分布式计算技术,它为企业级应用程序能更好更容易的无缝集成提供了一种极
光刻设备的分辨率越来越高,以满足集成电路特征尺寸不断缩小的要求。根据瑞利判据,可以通过缩小曝光波长和工艺因子、增大数值孔径来提升光学投影光刻的分辨率。随着数值孔径的
工业3.0与虚拟现实、增强现实技术都是当下炙手可热的话题,这些技术都扎根于计算视觉技术,其中三维重建技术作为计算机视觉领域当中一个重要的方向,得到了广泛的研究。工业3.0的
“问题解决”通常被定义成一系列的有目的指向性的认知操作活动过程给学生提供自己发现事物的机会是问题解决教学的积极提倡者波利亚对“好教育”提出的重要评价指标。而随着
业务流程管理是企业管理和计算机领域的交叉学科,已成为近年来企业信息化关注的热点之一。业务流程管理对企业业务流程进行提炼,划分成多个活动,并建立相应的流程模型,将这些
随着今天高端计算机游戏以及动作电影视觉特效的广泛应用与普及,仅通过纹理贴图早已不能满足用户需求。然而,为三维模型制作逼真的表面外观,即在包含丰富的几何细节变化,如金属的
随着科技的发展及战争的需要,导弹武器系统中电子设备越来越多,越来越复杂。“十一五”期间,我国新型导弹武器系统的研究取得快速发展,弹上计算机的处理速度也得到大幅度提高。如
存储系统经历了单盘系统,磁盘阵列(Redundant.Arraysof Inexpensive Disks,RAID),开放系统的直连式存储(Direct-Attached Storage,DAS),网络附属存储(Network Attached Storage,NAS