面向认知构式语法的英语动词模式的识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:az4112513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言中有大量非常规的语言学现象,如谚语,俚语,成语等,这些语言现象很难用标准的句法分析或者是传统的框架语义学等方式来解析。认知构式语法正是从特殊语言现象的分析出发所建立的,并逐渐成为当代最为重要的语言学理论之一。构式语法提出采用构式作为完整语义的基本单位。与传统的框架语义学、产生式句法等不同的是,作为基本语义单元的构式的规模是不受限制的,也不可能人工来构建完整的构式集合,这就带来了一个重要的挑战:如何自动发现和挖掘语言的构式。显然,这不是一个可以很快得到完全解决的问题。为了逐步探索解决这一问题的方法,近年来,人们开始尝试着首先从英语动词的基本语义模式挖掘出发,来逐步探索基于语料库的构式构建方法。本文正是沿着从英语动词模式发现来探索构式挖掘方法这一思路,来开展面向认知构式语法的英语动词模式的识别研究。本文的主要研究内容包括两部分:首先,通过聚类分析来研究动词的典型语义组合模式发现方法,然后,通过语义类型标注将词义映射到动词模式的各个论元中,从而构建出英语动词常用模式。由于同一个动词的语句上下文环境往往复杂多变,要将表达相同动词语义的不同语句聚集到一起是一个很有挑战性的任务,为此,本文尝试将多种传统和最新的语句语义表示方法、语句距离计算方法以及聚类方法进行结合,通过大量对比试验,最终提出了一种结合词语移动距离(Word Mover’s Distance,WMD)模型与R&L聚类算法来进行动词模式聚类的方法,并通过实验验证了该方法在聚集相同动词语义模式的语句问题上能获得最优性能。在动词语义聚类结果基础上,为了把每一个类别的动词语义模式识别抽象标注出来,我们进一步开展了动词模式中论元的语义类型标注问题研究。并对比了支持向量机模型和条件随机场模型的标注性能,来进行标注,通过对比本文的实验结果和Sem Eval 2015官方发布的评测结果表明,本文所实现的面向认知构式语法的英语动词模式的识别方法在准确率上有显著提升,尤其是在动词模式聚类问题上,本文提出的结合WMD模型与R&L算法的方法,得到的F1值相比现有的评测结果提高了21.6%。
其他文献
伴随着计算机网络的普及和通讯技术的迅猛发展,网络信息已逐步成为当今社会发展的重要资源。网络互连一般采用TCP/IP协议,由于网络及其协议的设计者,在设计之初只考虑了效率
网格计算是为解决大规模资源密集型问题而提出的新一代计算平台,是当前并行和分布处理技术的一个发展方向,资源管理是计算网格的关键技术之一。然而,由于网格系统的分布性、
随着信息技术的发展,人类社会步入知识经济时代。对知识的管理已经成为企业管理的重要方面。本体的应用使得企业能够共享知识结构的标准化表示。有效的本体建模和实例检索方
本文在深入分析粒子群算法的缺陷及成因的基础上,引入了云理论、人工鱼算法,并提出扩张变异算子等方法,对粒子群算法进行改进,来提高算法的收敛速度和精度,有效克服了算法易
Domination问题是组合学中最具有代表性的一类判定问题,一般可分为:支配集问题,强支配集问题,独立支配集问题和联通支配集问题等。其中研究最多的是支配集问题。它和集合覆盖
在网络得到快速发展和应用的现代社会,代理签名的应用越来越广泛。例如:某总行授予所属支行签发电子货币的权利,让他们以总行的名义签发电子货币,而又不让他们获得总行的签发密钥
随着互联网技术和电子商务的飞速发展,各类企业都纷纷采用因特网和Web技术,将它们的主要服务搬到互联网上,以得到更强的自动性、更迅速的交易和更广阔的视野。SaaS(Software
随着数值计算技术的发展,使用数值模拟方法来制作引人注目的流体特效动画已在电影工业中成为一种趋势。在模拟计算中,小尺度的流体细节尤为重要,比如烟雾中的涡旋或是流沙中
我们生活在一个信息爆炸的时代,各行各业积累了大量的,甚至是海量的数据。根据世界知识产权组织的统计,专利文献含有世界每年发明创造成果的90%~95%,世界每年的申请量以100多
尽管文档分类作为一种知识组织方法在诸多场合有广泛的应用,但针对这类高质量数据的数据挖掘研究却不多。本文着重于利用文档分类结构的信息检索技术研究。对平行分类结构和