论文部分内容阅读
自然语言(人类语言),是指一个基于文化特点的,用于正式场合正式场合的交流系统[1]。自然语言处理(计算语言学)是指应用于学习、理解和产生自然语言的计算技术[2]。统计机器翻译是指利用机器学习为主要手段,用统计的方法来将一种语言翻译成另一种语言。作为目前自然语言处理中最流行的方向之一,区别于基于规则的机器翻译,其翻译范式是基于统计模型对平行双语语料的分析。其中,基于短语的机器翻译长时间被认为是最为有效的机器翻译方法。近年来,随着计算机性能的提升,以神经网络为代表的基于连续空间的机器翻译开始流行,在不同方面提升了机器翻译的表现:比如语言模型,翻译模型和一体化端对端的机器翻译模型等。 虽然连续空间模型在机器翻译中得到了效果的提升,但是其也有显著的缺点,其中最为代表性的是: 1)由于采取了非线性的模型,虽然很多工作着力于优化相应模型,但是训练和运算时间相对于线性模型仍然较慢。 2)以神经网络模型为代表的连续空间模型往往采用特征自动学习的方法,这样带来的优点是可以自动提取特征,避免了人工的特征选择,但是反过来,一些有意义的语义信息被忽略了。 基于以上已有方法的缺点,本文从基于神经网络模型和图模型这两个连续空间模型的角度,提升机器翻译的表现。在神经网络模型方面: 1)我们提出了一种将连续空间语言模型转化为线性语言模型的方法,该方法可以使连续空间语言模型在保持高性能的前提下,以线性语言模型的速度进行解码运算。 2)我们提出了拼接短语这一语言学概念,利用神经网络的可扩展性,我们将拼接短语与神经网络结合起来,用于提高机器翻译的自适应性和可扩展性。在图模型方面,我们提出了一个新的双语语义单元–双语上下文词团(Bilingual Contexonym Cliques,BCC)。区别于目前已有的直接利用上下文或者滑动窗口的词空间表示方法,BCC蕴含更多的语义信息。基于BCC,我们构建了双语图语义模型,其可以用于提升基于短语的机器翻译的表现。 本文提出的各种算法均在国际公开测评的语料(例如IWSLT和NIST等)进行了验证,并与以深度学习为主的主流算法进行了大量的对比实验。在运行速度上,由于本文的方法结合了语言学特性,有效地规避了无语言意义的步骤,实验表明其在运行速度上有显著提升。在翻译准确度上,实验表明其表现优于其他主流算法,并通过了显著性测试。