融合多特征的译文质量估计技术研究

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户:lyre1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习取得重大突破,机器翻译领域得到迅速发展,而机器翻译必然伴随着译文评价。译文质量估计技术是指在无参考译文的情况下对机器译文进行评价的方法,在计算机辅助翻译中具有重要意义。目前,在该领域中,主流方法是融合深度学习技术的神经译文质量估计方法。与传统的译文质量估计方法相比,该方法能够更好的对双语及其特征进行充分学习。但神经译文质量估计模型仍存在一些问题需要解决,主要分为以下两方面。首先训练译文质量估计模型的语料需要人工标注,成本较高,所以规模较小,导致模型受到语料的限制,对双语信息提取不充分。其次神经网络虽然具有很好的自学习特征的能力,但它将双语句子简单地看作一个词序列,无法从语言学的角度上有效地捕捉句子内部的词法、句法信息。本文提出一种融合多特征的译文质量估计方法,通过提取多个层面的特征,来缓解上述问题。针对问题一,本文提取词预测特征和预训练语言模型特征,该特征可以为译文质量估计模型引入先验知识,同时能够克服下游模型过拟合现象的发生。针对问题二,本文提取词性特征和句法特征,以外部知识的形式补充到神经网络中,丰富了质量向量所蕴含的词法、句法信息。本文通过实验,对不同层面的特征进行了评价和筛选,然后将特征在不同的网络模型中进行融合,并从多个角度分析了不同特征组合所起到的不同效果。最后本文使用集成学习算法,将多个有效子模型进行集成,得到泛化性能最好的模型。
其他文献
针对低压配电网数据完整性不足的场景,提出了一种基于二次矩阵补全的低压配电网相序识别算法。首先,分析了基于电流拟合的相序识别原理与模型;其次,研究了基于奇异值门限(SVT)算法的矩阵补全算法及其对缺失数据的一次补全方法;然后,为了进一步提升矩阵补全精度,提出了基于SVT算法的二次补全算法,并在此基础上构建了基于二次矩阵补全的低压配电网相序识别方法;最后,通过实际台区用电数据对所提算法进行算例分析。算
期刊
背景和目的广西艾滋病疫情严重,经同性传播比例逐渐上升。近些年来,男男同性性行为人群(Man Who Have Sex With Man,MSM)的艾滋病感染率逐年升高。本研究以广西MSM艾滋病人群为研究对象,综合运用HIV分子流行病学和社会传播网络分析方法,了解广西MSM艾滋病人群HIV-1流行毒株特征、传播模式、分子传播网络特点和社会网络特征,揭示广西MSM人群艾滋病流行特点、超级传播个体或分子
学位
随着网络架构和通信范围的不断扩大,数据中心网络中的能源成本急剧增加。在软件定义车辆网络(Software-Defined Vehicular Network,SDVN)中,随着网络规模的增长以及车辆数量的增加,车辆之间以及车辆与控制器之间的通信延迟急剧上升。这需要布局更多的控制器来提供通信服务,然而更多的控制器导致高能耗。因此,应该解决控制器布局问题(Controller Placement Pr
学位
机器博弈是人工智能领域具有挑战性的研究方向,分为完备信息博弈和非完备信息博弈。非完备信息博弈由于隐藏信息的存在,所以研究难度较大。在实际应用中的很多问题都可以抽象为非完备信息博弈,因此研究非完备信息博弈具有重要意义。非完备信息博弈关键技术有纳什均衡的求解、对手建模等。本文以无需领域知识为前提、德州扑克为研究对象,研究了对手建模方法,为此做了以下工作:(1)提出预期收益策略并将其和上限置信区间算法(
学位
目前,面对计算任务中庞大的计算数据,并行计算能力显得尤为重要。而量子计算和云计算都是可以改变未来计算方式的技术。量子计算通过使用量子物理的相干、纠缠等性质,设计一些高速的计算模型以及对经典算法进行加速。由于大型量子计算机需要一定的运行条件,短期内部署高性能个人量子计算机似乎仍有困难。而云计算可以将计算能力作为一种服务对客户端提供。因此,客户端有必要借助量子云计算进行复杂的量子计算。两者进行结合实现
学位
随着计算机视觉领域的高速发展,使得监控场景中的目标检测与跟踪在日常生活中发挥着越来越重要的作用,但在目标检测与跟踪的实际应用中,经常受到算法运行速度和准确率的影响,同时还受到行人车辆互相遮挡、目标过小和尺寸变化等情况的干扰。因此,本文为了解决这些问题,对基于深度学习的YOLOv3算法和Deepsort算法进行改进,具体工作如下:在交通监控的场景下,为了提高对小目标检测效果,以及行人车辆发生尺度变化
学位
双语词对齐技术的研究在自然语言处理领域有重要意义,双语词对齐技术在神经机器翻译的应用中也发挥着重要的作用,如注释转移和词汇注入,还可以辅助译文质量的校对。双语词对齐语料还可以为双语句对齐、跨语言信息检索等提供重要支撑。因此,研究和实现高质量的双语词对齐方法和工具,具有重要应用价值。本文重点研究基于神经网络的词对齐技术。该研究首先面临的一个重要问题就是如何获得较大规模的词对齐训练语料。依赖人工标注的
学位
目的:识别农村老年人中的自杀高危人群、分析自杀的危险因素;探讨绝望在生活质量与自杀之间的中介效应;预测农村老年人的自杀风险。本文旨在加强对自杀危险因素的认识,为农村老年人的自杀预防提供参考依据。方法:本研究采用病例对照的心理解剖研究方法。通过分层随机抽样选择调查地点。首先,将大陆31个省份/直辖市按照GDP分为三层,每层随机抽取一个省份,分别为山东、湖南、广西。其次,在各个省份中,按照各县的人均G
学位
现如今,人们对室内定位的需求与日俱增。由于WiFi设备的广泛使用,利用WiFi进行室内定位的技术受到了人们的广泛关注。目前,在WiFi定位领域,一些研究者主要根据定位区域特有的RSSI信号强度特征,采用WiFi指纹定位的方法,对目标定位节点进行更准确的测定。由于基于WKNN的WiFi指纹定位算法以及使用Kmeans+RVM的WiFi指纹定位算法存在定位精度不达标、收集的信号不稳定等问题,本文提出一
学位
机器阅读理解是自然语言处理领域的一个重要且富有挑战性的任务,阅读理解能够让机器通过阅读文章,理解其中的语义信息,当被问到与文章相关的问题时,能够自动给出答案。传统的机器阅读理解是使用人工特征和统计学习方法进行建模,根据不同联合概率映射函数进行匹配,受数据集和机器硬件的限制,模型的效果较差。近来随着优质的大规模数据集的发布和深度学习技术的发展,目前机器阅读理解工作中利用神经网络自动学习文章和问题的特
学位