论文部分内容阅读
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展,而针对汉语的相关研究还很薄弱。探索基于汉语自身语言特色的动词次范畴化自动获取方法对于中文信息处理来说具有重要的理论研究意义和广阔的应用前景。 对次范畴化信息的自动获取技术来说,最关键的两个问题是假设生成和假设检验。前者解决如何利用已有自然语言处理工具和语言学规范从输入语料中为相关动词获取可能的次范畴化信息;后者解决如何设计一种符合相关语言特点的统计检验方法,最大限度地过滤掉第一步输出结果中的噪音。本文在国内外已有相关成果的基础上,充分考虑汉语的自身特点,对这两个主要问题进行了深入研究。具体地讲,本文研究从如下几个方面展开: 1.借鉴相关研究,分析了汉语动词次范畴化的语言现象,给出了以句法模式为主的汉语次范畴化信息的形式化描写规范,在内容和形式上基本保持了次范畴化规范与现有主要汉语处理工具,以及国际同类研究之间的一致性,为汉语动词次范畴化信息的自动获取打下了理论基础。 2.基于最大似然估计提出了一种动态估计最优经验阈值的汉语动词次范畴化基础类型假设检验方法。该方法以假设类型出现频率的数学期望为观察量来动态估计用于最大似然假设检验的最优阈值。并通过自动获取方法,以少量手工分析工作为补充,构建起了汉语动词次范畴化基础类型集合和以次范畴化类型描述的句式转换集合,为大规模真实文本的汉语动词次范畴化自动获取打下了物质基础。 3.设计并完成了从大规模真实文本中自动获取汉语动词次范畴化信息的实验过程,实现了一个自动构建汉语动词次范畴化词汇知识库的系统原型。性能评价表明,该系统已经达到了国际上同类研究相应阶段的水平;基于任务的评价体现了次范畴化信息在中文信息处理领域有着可观的潜在价值。 4.研究了以动词分类知识和句式转换知识为回退启发信息的获取性能改进技术。动词分类知识的回退实验揭示了汉语动词次范畴化的形式化描写规范同已有手工资源中动词概念描述方式之间的潜在关系,在一定程度上改善了次范畴化自动获取的整体性能;在句式转换知识的回退实验中提出了双重过滤的假设检验方法,该方法通过同一谓语动词的高频和低频次范畴化假设类型之间可能存在的句式转换关系,比简单的最大似然估计方法更加充分地利用了输入语料上的可观察信息,较为彻底地摆脱了其它检验方法中次范畴化类型与动词之间的独立性假设和次范畴化类型之间的独立性假设所带来的负面影响,使得汉语动词次范畴化自动获取研究取得了当前国内外同类研究的最好结果。