英语动词型式的自动识别和语义检索

来源 :北京外国语大学 | 被引量 : 2次 | 上传用户:xuanchen21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以型式语法为理论基础,研究了从大型语料库中以数据驱动的方式提取动词的型式,按照语义角色对型式的组成元素进行语义分类和自动标注等问题,进而建立了一个以语义为索引的英语动词句法型式知识库,实现了基于Web的语义型式检索系统。现有相关研究如StringNet, Grasp, Linggle等对型式的类型定义和型式表示较为笼统和粗泛,检索方式等也存在较多不足。并且目前也尚不存在一个按照语义角色来分类的型式检索系统,这些因素促成了本文的研究。本研究设计建立的型式检索系统的意义在于为机器辅助型式学习探索新的思路,满足学习者按照语义方式查询的需要。同时它可作为学术研究的工具,辅助相关研究,如型式和意义,语义论元等研究领域。研究使用全句法解析(full syntactic parsing)获得句子的短语树结构,然后通过监督式学习训练二元分类器对句子中型式元素所在的句法成分做边界识别,型式元素的句法成分包括动词在句子中的所有论元,动词本身和小品词。进而把识别出的型式元素按照其在句子中出现的顺序做线性排列作为型式整体候选项,对其进行组合强度和概率比重计算并以此排序。同时,研究使用有监督式训练的多元分类器,按照标准语义角色标注(SRL)的语义角色划分框架,对型式元素做语义角色分类。本文在型式语法对型式的定义基础上,把型式元素的构成范围扩展为句子中动词的左右两边,并把型式按照动词语态做了区分,即提取整句的句法型式。同时加入了包括短语中心词和小品词作为型式元素的候选类别。这种以一致的方式同时对结构和词汇偏好做自动描述,在利用数据驱动提取基于型式语法的动词型式的研究领域或属首次尝试。同时,对词汇和结构的偏好做语义归纳和描述的研究,据我们所知,本文也为首次采用SRL标准任务对语义角色的划分框架,为研究语义倾向性提供辅助。本文把型式提取和语义角色标注合并完成的方法为上述研究提出了一个可行的计算方案。NLP方面的其它研究贡献还包括,显著提高了对SRL核心论元的标注效率,探索了如何使用全句法解析对型式进行自动提取的方法;为海量数据处理设计的并行计算模型。
其他文献
妇产科双语教学实行以来,经历了各种考验,但也暴露出一些问题。为了更好的开展双语教学,提高妇产科双语教学质量,我们积极地研究双语教学改革方案,提出教学目标不明确、师资
日前,《呼包鄂协同发展规划纲要(2016-2020年)》(以下简称《纲要》)正式下发。纲要进一步明确了呼包鄂三市差别化发展功能定位,加快以呼和浩特市为核心,包头市、鄂尔多斯市为副中
提出一种基于变精度粗糙集算法的阀门故障诊断方法。该方法具有一定的容错能力,同时能够在确保故障规则具有较高准确度和覆盖度的前提下得到尽可能简洁的规则集。将该方法用
环保部网站日前发布《无机磷化学工业污染物排放标准》(征求意见稿),拟收紧多项无机磷化工业的污水、废气排放标准。中国无机磷化工业产量、产能、出口量连居世界第一。2012年底
介绍了五虎山煤矿1201工作面CO浓度超限情况并分析了其原因,针对该工作面实际特点,采取了均(增)压防灭火措施进行治理。措施实施后,工作面的回风量稳定在650 m3/min,进风量为673 m3/m
目的自行研制羟基磷灰石/聚左旋乳酸(PLLA/HA)复合材料支架,测试机械力学性能;制备PLLA/HA复合纳米纤维膜,观察纤维膜的结构形态。方法将一定比例HA复合于PLLA中,制膜切丝,自制
3模块化数据中心的几种架构目前,模块化数据中心的架构主要有微模块数据中心、集装箱式数据中心和仓储式数据中心几大类。
近日,全球电子系统防护产品领导者滨特尔电子设备保护今日宣布将携手IT巨头新浪,为其机房基础建设提供高性能设备。这是滨特尔继与百度展开2013年南京凤凰机房项目、2014年山西
一.项目概述用地面积150亩,厂房建筑面积1万。建设15万吨/年碳酸钙深加工生产线,其中,年产10万吨微细轻质碳酸钙生产线和年生产5万吨纳米碳酸钙生产线。上涌镇石灰石资源丰富,其中
剑锋从磨砺出,梅花香自苦寒来。宝星公司又传喜讯,通过激烈的筛选,宝星6000系列一举中标贵州民族大学UPS项目。贵州民族大学创建于1951年5月17日,隶属贵州省人民政府,是新中国创建