汉语动词子语类框架提取技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yesheng1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动词子语类框架(subcategorization frame,以下简称SCF)信息在语言学上有重要的意义,它可以解决绝大部分词语的论元和附属语区分问题。在概率句法分析应用中,子语类框架信息可以大大提高句法分析的准确率,在语义消歧和语义角色标注中也可提供重要的信息。随着自然语言处理研究的不断深入和发展,对动词子语类框架信息的获取也越来越引起人们的重视。 有关英语动词SCF自动获取的研究相对较成熟,而针对汉语动词SCF的自动获取研究还很少。本论文针对汉语动词SCF的自动获取进行了以下的系列研究: (1)在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起了既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。 (2)利用机器学习的方法获取SCF的概率信息,对提取出的子语类框架信息进行过滤,获取比较准确的子语类框架概率信息,对比实验表明,本文提出的方法在准确率和召回率上都有一定提高。并最终获取了汉语常用2000动词的子语类框架的概率信息。 (3)对汉语动词子语类框架概率信息的应用进行了初探,将本文获取的动词子语类框架概率信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。
其他文献
真空定向结晶铸造炉是针对特有材料结合特有工艺完成定向结晶一次成型的铸造过程的生产设备。由于是针对特有工艺过程,操作员要在操作台上操作生产过程,包括温度控制时人工整
随着互联网和计算机应用的的迅猛发展,软件的安全问题已经成为计算机系统安全的一个至关重要的问题。如今的软件越来越复杂,不可避免包含着程序漏洞。程序漏洞攻击威胁日益严重
近年来,图形用户接口(GUI)技术广为流行,它在给软件的开发和使用带来巨大方便的同时,也给软件的测试带来了极大的挑战。GUI应用程序通常由大量窗口、按钮、文本框等控件组成,每个
近二十年来,由于三维数据获取设备的发展与复杂拓扑结构的曲面造型日益普及,离散网格曲面逐渐成为一种重要的几何表示和对象建模方法。离散网格的表示、处理和几何造型技术也成
领域构件的接口名称不仅仅只是一个使其唯一的标识符,其中往往蕴含了相关领域中的语义信息。本文假设构件的设计者在对构件接口进行命名时,会尽量包含接口在领域中的语义信息,这
随着信息化程度的提高,信息的生产越来越快,数据量巨增,如何快速有效地对大规模数据进行聚类分析处理成为数据挖掘领域中的一个研究热点。 并行聚类算法将并行计算方法与
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web。Deep Web主要有Web中可在
轮廓查询技术是空间查询及优化领域的研究热点, k-支配轮廓技术是近年来轮廓查询技术领域的新的研究方向。k-支配轮廓查询及其动态处理被广泛使用在多种空间数据库中,在数据
基于TCP/IP的Internet迅猛发展,已经成为全球覆盖范围最广,承载业务最多的综合性网络。通过IP网络承载传真业务,由于其低廉的费用和高效的带宽利用率,正在成为一种新的具有相
随着信息技术的迅猛发展,各种信息的获取、保存与使用方式给人们带来了极大的方便,但未经版权所有人许可,对数字作品的任意复制、修改等盗版行为也日趋严重。在此背景下,数字