论文部分内容阅读
在汉语语音合成的研究中,合理完善的汉语韵律模型是提高合成语音自然度的关键所在。作为韵律模型的重要元素,重音因其在感知方面的困难而成为语言工程和语音学研究中难点和重点。另一方面,在自然语言处理的领域中,句法分析是被广为应用的基础技术,尤其是在大规模标注树库的出现后,基于树库的统计语法分析已成为当今语法分析的主流技术。不过,句法分析虽然在自然语言处理中应用广泛,但是将其和韵律模型结合应用到语言学的研究才刚刚起步。同时,语料库规模大幅提升,导致人工标注量增加;并且难以确保标注人员之间的一致性。因此,采用计算机自动准确高效地对正规书面文本语料和含口语标记的语料进行标注也是一个重要科研方向。本文从自然语言处理中依存句法分析的角度来探索韵律特征,旨在为该研究提供更为广阔的思路。本文以ASCCD(Annotated Speech Corpus of Chinese Discourse)语料库为研究对象,基于哈工大依存标注体系和改进的哈工大依存标注体系,分别对规范书面语料和含有口语标记的口语语料进行研究和分析,通过分析汉语中依存句法结构对韵律参数的影响,得到如下结论:(1)对比两种类型语料结果发现,重音在依存关系上的分布概率趋势大体相同,在个别依存关系上存在差异:在两种语料中语句重音比重在ADV(状中)、ATT(定中)、VOB(动宾)、SBV(主谓)这四种依存句法关系中出现的概率都较大,总概率达到了60%;(2)比较两种类型语料,在具体依存结构内部,重音在支配词和被支配词上的分布存在明显差异;(3)针对两种类型语料,深入研究了不同依存句法关系条件下重音如何通过“超音段特征”(时长)表现出来,验证了时长是汉语实现重音的主要手段之一。以上这些研究结果充分验证了从依存句法的角度来完善韵律特征模型是可行性,同时也指出了“超音段特征”和重音之间的密切联系。最后,本文将讨论如何将基于依存句法分析角度探索得到韵律特征融入到汉语韵律特征自动标注系统。