【摘 要】
:
对齐的双语语料在机器翻译、词义消歧和双语词典编撰等领域都非常有用,语料对齐的单位由大到小有篇章、段落、句子、短语、词等不同的层次,粒度越小,提供的语言信息就越多。然而,不同语言之间的差异问题为文本的预处理带来了困难,使语料库自动对齐工作难度增大。在实体级别对齐方面,还未见汉越双语对齐的相关研究。为了实现汉越实体对齐,进一步扩充双语语料库,本文对越南语命名实体识别技术展开研究,并在此基础上提出一种基
论文部分内容阅读
对齐的双语语料在机器翻译、词义消歧和双语词典编撰等领域都非常有用,语料对齐的单位由大到小有篇章、段落、句子、短语、词等不同的层次,粒度越小,提供的语言信息就越多。然而,不同语言之间的差异问题为文本的预处理带来了困难,使语料库自动对齐工作难度增大。在实体级别对齐方面,还未见汉越双语对齐的相关研究。为了实现汉越实体对齐,进一步扩充双语语料库,本文对越南语命名实体识别技术展开研究,并在此基础上提出一种基于命名实体识别的汉越双语实体对齐方法。论文主要工作如下:(1)针对越南语语料匮乏、人工构建比较困难的问题,提出了一种越南语实体识别数据集构造方法,以较低的人工干预成本构建面向越南语实体识别任务的数据集,解决了标注语料稀缺的问题。(2)构建并实现了一种基于BERT-GRU-CRF的越南语命名实体识别模型。该模型通过BERT(Bidirectional Encoder Representations from Transformers)层进行词向量处理,利用GRU(Gated Recurrent Unit)层提取向量的语义特征,通过CRF(Conditional Random Field)对实体标签进行预测。在越南数据集上,最终人名、地名和机构名的F1值分别达到了92.98%,95.86%和88.77%。将该模型与几种常用模型对比,实验结果表明该模型在对越南语数据的处理中拥有更好的性能。(3)针对目前汉越实体对齐技术研究较少的问题,提出了一种基于命名实体识别的汉越双语命名实体对齐方案。该方案包括词对齐处理、命名实体识别处理和实体对齐处理,将词对齐结果和实体识别结果进行整合,最终得到对齐的汉越双语实体。分别对人名、地名、机构名进行实验分析,F1值分别达到了74.98%,78.20%和65.76%,结果表明本方案能有效提取对齐的汉越双语实体。
其他文献
碎煤系统作为筛碎系统的重要组成部分,在集中供热中发挥着巨大作用。为满足生产工艺要求,碎煤机等振动设备通常布置在楼层上。碎煤机在启动时振动较大,如果设计不当,在动荷载作用下,结构构件会产生动应力,导致结构破坏,甚至会危害周围建筑结构的安全。碎煤机楼的破坏会对正常的供热产生影响,造成巨大的经济损失。目前关于工业厂房振动的研究,通常是针对振动过大的厂房结构产生破坏后的加固问题。但是关于在设计过程中碎煤机
传授犯罪方法罪规制以语言、动作、书面等其他形式,教授他人具体犯罪方法的行为。设立本罪旨在打击向他人传授犯罪方法的犯罪分子,历经三十多年,本罪在惩处传授犯罪方面起到诸多积极作用。但是随着经济的发展,新型犯罪形式不断出现,在实践中产生的各式争议,给本罪的适用造成一定困难。基于此,本文着眼于司法案例争议,立足实践厘清传授犯罪方法罪的适用范围。首先,就传授犯罪方法罪的犯罪构成而言,需判断某种行为是否构成本
温西X区块属于高温(84.2℃~90℃)、中盐(矿化度10967~15283mg/L)、低渗(平均渗透率为49×10-3μm2)稀油(原油粘度0.7m Pa·s~3.2m Pa·s)油藏。该区块于2015年1月开始实施泡沫驱以来,泡沫试验区主要生产井组的含水率小幅度降低(由98%降低到90%)、日产油量快速上升(由2t上升到8t),增油降水效果较为明显。但2016年1月开始,试验区生产井开始间断见
随着科技发展,无人机航空摄影测量以其实时性高、机动灵活、数据获取精度高的优势逐渐成为现代测绘技术的重要手段,在测绘领域发挥着越来越重要的作用。然而,当前无人机航空摄影测量方案的设计主要依赖人工,未通过系统设备进行辅助完成,自动化程度较低,需要耗费大量的时间和精力。针对上述问题,本文提出了利用计算机辅助设计无人机航空摄影测量方案的技术方法。在无人机航摄之前根据航区设计结果及相关航摄参数制定一份方案设
目的:探讨贵州省黔东南州侗族妇女子宫肌瘤、宫颈纳氏囊肿及子宫附件囊性结构患病情况、影响因素,利用潜在类别分析进行人群特征的分类,探讨不同特征的人群患病的风险。方法:采用分层多阶段抽样的方法,从贵州省黔东南苗族侗族自治州的黎平县和凯里市中抽取2个街道、6个乡镇,共3790名侗族女性参与研究。利用SPSS 22.0分析软件进行χ2检验、趋势χ2检验、非条件二分类Logistic回归分析。χ2检验比较各
魏晋是中国书法史的轴心时期。专门讨论书法本体的理论的涌现、楷、行、草三体书写技法的完善、以钟、张、二王为代表的书家典范的确立等等使得书法拥有了独立的艺术品格,为后世书法的发展树立了规范,成为后世书家取法的源头。“魏晋古法”作为当代书学理论研究与书法创作实践中的一个习见的语汇,多与魏晋时期的书家联系在一起,侧重于书写法度层面的意义。然学界对“魏晋古法”这一概念来源、内容、具体表现却鲜有论述。故本文试
中医药作为中华文化的瑰宝近年来愈受重视,中医药文化的传播也愈加广泛,中医经典文献的译本在中医药文化传播过程中起着重要作用。作为中医类学科中的一门重要课程,中医内科学是中医临床各科实践的理论基础,在中医教材中有着重要地位。本次翻译实践项目以最新版的《中医内科学》教材为原文本,在功能对等理论的指导下运用Trados翻译辅助工具以及平行文本等参考资料进行翻译。笔者所负责的第一章(肺系病症部分)原文为中文
企业内部实施现代化的绩效考核管理,建立科学的绩效考核体系,对优秀人才的吸引、保留非常关键。从目前我国的现状来看,国内大多数企业尚未采取科学的绩效考核体系,即便采取了也难以达到预期效果,特别是中小企业这种情况更加严重。企业营销人员作为企业营业额的主要实现者,对于营销型公司而言,营销人员素质的高低,对公司营业额的影响非常大。但是,目前国内企业营销人员的绩效考核指标体系设计还存在着各种各样问题,严重影响
肌肉型磷酸果糖激酶(phosphofructokinase-muscle,PFKM)是用于催化糖酵解过程中的6磷酸果糖不可逆地转化为1,6-双磷酸果糖的一种关键的多调控酶。前期研究中,我们通过同位素相对标记与绝对定量(Isobaric Tags for Relative and Absolute Quantitation,iTRAQ)技术从巴马猪、大白猪和姜曲海猪的肌肉组织中检测出PFKM基因表达
黄金梨(Pyrus pyrifoli Nakai cv.Whangkeumbae)是最近三四十年发展起来的优良梨品种,在中国多省份均有广泛种植。黄金梨采后呼吸代谢旺盛,低温、常温贮藏后期均易发生果心褐变,导致其商品价值下降,造成巨大经济损失。研究发现适时采收可以减轻黄金梨果心褐变的发生,因此研究不同采收期对黄金梨果心褐变发生的影响及防褐技术的研发具有重要的意义。本试验以黄金梨为试验材料,研究不同采