汉语动词次范畴化自动获取技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jiang1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展,而针对汉语的相关研究还很薄弱。探索基于汉语自身语言特色的动词次范畴化自动获取方法对于中文信息处理来说具有重要的理论研究意义和广阔的应用前景。  对次范畴化信息的自动获取技术来说,最关键的两个问题是假设生成和假设检验。前者解决如何利用已有自然语言处理工具和语言学规范从输入语料中为相关动词获取可能的次范畴化信息;后者解决如何设计一种符合相关语言特点的统计检验方法,最大限度地过滤掉第一步输出结果中的噪音。本文在国内外已有相关成果的基础上,充分考虑汉语的自身特点,对这两个主要问题进行了深入研究。具体地讲,本文研究从如下几个方面展开:  1.借鉴相关研究,分析了汉语动词次范畴化的语言现象,给出了以句法模式为主的汉语次范畴化信息的形式化描写规范,在内容和形式上基本保持了次范畴化规范与现有主要汉语处理工具,以及国际同类研究之间的一致性,为汉语动词次范畴化信息的自动获取打下了理论基础。  2.基于最大似然估计提出了一种动态估计最优经验阈值的汉语动词次范畴化基础类型假设检验方法。该方法以假设类型出现频率的数学期望为观察量来动态估计用于最大似然假设检验的最优阈值。并通过自动获取方法,以少量手工分析工作为补充,构建起了汉语动词次范畴化基础类型集合和以次范畴化类型描述的句式转换集合,为大规模真实文本的汉语动词次范畴化自动获取打下了物质基础。  3.设计并完成了从大规模真实文本中自动获取汉语动词次范畴化信息的实验过程,实现了一个自动构建汉语动词次范畴化词汇知识库的系统原型。性能评价表明,该系统已经达到了国际上同类研究相应阶段的水平;基于任务的评价体现了次范畴化信息在中文信息处理领域有着可观的潜在价值。  4.研究了以动词分类知识和句式转换知识为回退启发信息的获取性能改进技术。动词分类知识的回退实验揭示了汉语动词次范畴化的形式化描写规范同已有手工资源中动词概念描述方式之间的潜在关系,在一定程度上改善了次范畴化自动获取的整体性能;在句式转换知识的回退实验中提出了双重过滤的假设检验方法,该方法通过同一谓语动词的高频和低频次范畴化假设类型之间可能存在的句式转换关系,比简单的最大似然估计方法更加充分地利用了输入语料上的可观察信息,较为彻底地摆脱了其它检验方法中次范畴化类型与动词之间的独立性假设和次范畴化类型之间的独立性假设所带来的负面影响,使得汉语动词次范畴化自动获取研究取得了当前国内外同类研究的最好结果。
其他文献
在无线网络中,通用移动通信系统(Universal Mobile Telecommunications System,UMTS)能够为不同地理位置的移动电脑和手机用户提供一致的服务集合。作为UMTS的一部分,地面无线
随着计算机技术的飞速发展,各种不同层次的开放式数控系统应运而生,正朝着标准化开放体系结构的方向发展,与国外数控技术和产品相比我国数控机床的基础件和功能部件发展滞后,制约
计算机网络能有效地实现资源共享,但资源共享和信息安全是一对矛盾体。随着资源共享的进一步加强,随之而来的信息安全问题也日益突出,而权限管理和访问控制又是网络应用安全的重
文本分词和特征表示是文本处理领域的两个重要问题。本文在这两个问题上提出了新的见解,并且在文本分类的应用环境中对提出的方法进行了探讨。 大部分文本分词系统都是基于
随着现代汽车工业的发展,汽车测试系统也越来越复杂而庞大,广大汽车生产厂家迫切需要在汽车设计生产过程中进一步控制汽车的性能。有效地对汽车性能进行测量和对结果进行分析
嵌入式计算机系统不严格的说就是任意包含一个可编程计算机的设备,可穿戴计算机系统是嵌入式计算机系统的一种应用特例,是具有可穿戴性、可移动性、使用持续性和全新的人机交
新型客户服务中心已成为现代银行服务客户的主要渠道,同时也面临着由成本中心向利润中心转变的需求,所以现代银行的新型客户服务中心要求实现满足大话务量的接入,大容量业务的管
由于XML具有简单性、易扩展性、互操作性、可重用性和开放性等特点,它在Web应用和企业应用中具有强大的优势,已经逐渐成为数据交换的标准。Web Services提供了一种面向服务的架
小波作为一种重要的时频分析工具,克服了传统傅里叶变换的弱点,具有良好的局部化特性,因而在图像处理领域被广泛应用。对于图像序列(视频),小波分析也是一个重要的研究方向。