论文部分内容阅读
目前多数的自然语言处理任务尽管都基于数据驱动的方法,但引入语言学知识能有效改善性能却已成为研究人员的共识。语言学家已经发现韵律信息包含了重要语言学信息,认为韵律不仅承载着句子的结构、语义、情感和功能等信息,并且还可以将任何一个句子非递归地从高到低、依次分解,最终将句子表示成韵律层次结构树的形式。因而韵律是一种潜在的、可用的信息。但是,在非语音相关处理的自然语言处理应用中引入韵律信息的尝试还很少。本文则在这一方向上开展了若干研究,具体包含两个方面: 1.引入韵律结构信息的依存语义空间模型改进研究。主要考虑利用韵律结构信息对padò所提出的依存语义空间模型进行改进建模。包括两种改进,第一种改进基于韵律结构边界,完善依存上下文路径的值函数;第二种改进,在原有依存上下文的基础之上,在模型中扩展韵律上下文,结果使得模型包含两种上下文环境,并且模型能够获得更全的上下文。改进后的语义空间模型融合了词语分布、句法、韵律等多种信息来源的语言知识。词义消歧和相关度计算实验均表明,引入韵律结构信息后的依存语义空间模型比传统模型在性能上有了显著的提高。 2.引入韵律切分约束的层次短语翻译模型改进研究。主要考虑利用韵律信息对目前主流的层次短语翻译模型进行改进。包括两种改进,第一种改进利用韵律层次结构划分信息指导规则抽取,希望能减少模型的规则冗余问题;第二种改进则在翻译模型中引入了新的韵律切分特征函数。实验证明,第一种改进方法能在基本保持原翻译质量基本不变的情况下,降低层次短语模型的规则表规模。第二种改进方法,则能显著提高系统的翻译性能。