连续空间模型下的统计机器翻译

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:shigoujushi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言(人类语言),是指一个基于文化特点的,用于正式场合正式场合的交流系统[1]。自然语言处理(计算语言学)是指应用于学习、理解和产生自然语言的计算技术[2]。统计机器翻译是指利用机器学习为主要手段,用统计的方法来将一种语言翻译成另一种语言。作为目前自然语言处理中最流行的方向之一,区别于基于规则的机器翻译,其翻译范式是基于统计模型对平行双语语料的分析。其中,基于短语的机器翻译长时间被认为是最为有效的机器翻译方法。近年来,随着计算机性能的提升,以神经网络为代表的基于连续空间的机器翻译开始流行,在不同方面提升了机器翻译的表现:比如语言模型,翻译模型和一体化端对端的机器翻译模型等。  虽然连续空间模型在机器翻译中得到了效果的提升,但是其也有显著的缺点,其中最为代表性的是:  1)由于采取了非线性的模型,虽然很多工作着力于优化相应模型,但是训练和运算时间相对于线性模型仍然较慢。  2)以神经网络模型为代表的连续空间模型往往采用特征自动学习的方法,这样带来的优点是可以自动提取特征,避免了人工的特征选择,但是反过来,一些有意义的语义信息被忽略了。  基于以上已有方法的缺点,本文从基于神经网络模型和图模型这两个连续空间模型的角度,提升机器翻译的表现。在神经网络模型方面:  1)我们提出了一种将连续空间语言模型转化为线性语言模型的方法,该方法可以使连续空间语言模型在保持高性能的前提下,以线性语言模型的速度进行解码运算。  2)我们提出了拼接短语这一语言学概念,利用神经网络的可扩展性,我们将拼接短语与神经网络结合起来,用于提高机器翻译的自适应性和可扩展性。在图模型方面,我们提出了一个新的双语语义单元–双语上下文词团(Bilingual Contexonym Cliques,BCC)。区别于目前已有的直接利用上下文或者滑动窗口的词空间表示方法,BCC蕴含更多的语义信息。基于BCC,我们构建了双语图语义模型,其可以用于提升基于短语的机器翻译的表现。  本文提出的各种算法均在国际公开测评的语料(例如IWSLT和NIST等)进行了验证,并与以深度学习为主的主流算法进行了大量的对比实验。在运行速度上,由于本文的方法结合了语言学特性,有效地规避了无语言意义的步骤,实验表明其在运行速度上有显著提升。在翻译准确度上,实验表明其表现优于其他主流算法,并通过了显著性测试。
其他文献
人脸在人类的交流中起着重要的信息表达功能,人脸呈现的表情传递着人类复杂的情绪和感受。但由于人脸的生理学结构非常复杂,计算机从人脸中提取的特征常常难以直接利用。本文
近年来,在Hadoop平台上集成FPGA进行算法加速的研究受到了广泛关注。通过利用Hadoop将计算过程在节点之间并行,以及在单个计算节点上利用FPGA硬件加速,这些研究对特定算法的
无线传感器网络集成了传感器、嵌入式计算、网络和无线通信四大技术,它在军事、医疗、家用等多个领域均有广泛的应用,被认为是21世纪最重要的技术之一。无线传感器网络通常运
近年来,可视化技术在医学领域发挥越来越重要的作用。连续扫描的二维医学图像通过可视化技术三维重建,能够提供更丰富的解剖学和病理学信息。彩色体数据一般来源于人体的生理
不同领域的研究者们提出了大量的理论和模型来解释个体情感的产生、变化和传播方式。随着社交网络的迅猛发展,其简单、实时、高效、开放的信息发布特点为研究者们提供大量的
随着桌面虚拟化技术的发展,虚拟环境下计算机外围设备的应用开始备受关注。人们希望在虚拟计算环境中,应用程序可以使用远程USB摄像头进行聊天,或者使用远程USB打印机打印本
随着软件应用的不断深入,软件可信性受到了高度关注,形成了围绕“软件可信性”的新的研究热点。软件可信评估是可信性研究中的一个基本问题,在软件可信性保障活动中占据了极
近些年来,影响力最大化问题已经是数据挖掘领域炙手可热的研究方向,并且普遍应用于社会网络分析。然而,现有大部分研究在寻找最具影响力的种子节点的同时忽略了一个事实,那就
P2P因其独特的优势逐渐成为Internet中重要的组成部分,但是随着P2P技术的广泛应用,暴露出严重的安全和自私问题:(1)安全问题。由于P2P网络缺少第三方的安全监管,也没有相应的
话题检测技术作为话题检测与追踪的重要组成部分,目的是要解决从文本信息流中自动识别各个未知的话题,并且能够在线发现新话题。在话题检测技术中,热点话题检测是为了识别特