基于平行语料库的跨语言实体关系抽取研究

来源 :苏州大学 | 被引量 : 7次 | 上传用户:jzlh6890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行语料库不仅对跨语言关系抽取研究有着重要的意义,同时也为揭示自然语言处理任务在不同语言上的难度以及研究语言之间的互补性和冗余性提供了一个良好的数据平台。而传统的平行语料库仅在句子级对齐,限制了它在跨语言自然语言处理研究中的作用。鉴于此,本文进行了以下几个方面的研究工作:(1)实例级中英文平行语料库的构建。基于OntoNotes中英文平行语料库,通过自动抽取、映射和人工标注相结合的方法,构建了一个面向信息抽取的实例级对齐的平行语料库。并在此基础上采用SVM方法进行中英文实体关系抽取,最后从句法结构和词汇级别上揭示中英文关系抽取的难度差异。(2)基于双语协同训练的关系分类。基于已构建的平行语料库,采用协同训练的方法进行中英文关系分类。实验表明,双语协同训练的性能总是高于普通自举学习,并且具有较好的鲁棒性。(3)基于双语主动学习的关系分类。采用主动学习的方法进行中英文关系分类研究,使用联合置信度来获取不确定性最高的实例。实验表明,在标注同样数量实例的基础上双语主动学习总能获得较好的性能。本文的研究表明,与大多数的自然语言处理任务不同,在新闻领域上的中文关系抽取的性能优于英文关系抽取,其主要原因是在局部范围内中文比英文表达更简洁,语义更清晰。另外,由于中英文语言之间的冗余性和互补性,无论采用双语协同训练还是双语主动学习都能同时提高中英文关系抽取的性能。
其他文献
茅威涛来沪主演新概念越剧《江南好人》前,她声称是穿着“防弹衣”来演出的。现在看来,在上海演出两场,虽有争议,总体反应是积极的。茅威涛的“防弹衣”可以脱下来了。这说明,在“
报纸
伴随着世界范围内的原油普遍的出现重质化和劣质化现象并且人们现代生活对轻质油产品的需求也不断增大。所以重油的转化深度的提高以及加大原油生产量的工作在世界各国内都显
根据名字判断,这项技艺应该与木板和水有关吧没错,木版水印技艺的确根据使用的原材料和印制特点得名。那您给我们简单介绍一下它的工艺流程吧主要分三步。首先是勾描。把复制的
介绍了河南心连心化肥有限公司蒸汽系统及低位热能回收相关改造,通过利用尿素副产0.39 MPa蒸汽代替部分0.5 MPa蒸汽,实现了蒸汽系统再平衡,通过增加疏水扩容器及低位水箱,将
【摘要】二十一世纪,信息技术以其独特的优势融到社会的各行各业,融入到人们的点滴生活中。教育一直是国家和社会最关注的话题。因此,利用信息技术的优势,结合幼儿园教育中存在的问题,提高幼儿园教育的质量,推动学前教育的不断发展,是目前最需要引起重视的问题。  【关键词】信息技术 幼儿教育 有效运用  【中图分类号】G61 【文献标识码】A 【文章编号】2095-3089(2020)13-0021-01  
期刊
选取10种不同的家具中皮革样品,按照标准GB/T 28007-2008中的磷酸盐缓冲液萃取方式和实际中人体接触皮革的三种方式(模拟胃酸、酸性汗液和碱性汗液),对其中的六价铬进行萃取。