基于语块的汉语韵律短语边界识别研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:guoguo10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技在进步,时代在发展,在这个“读图”和“听音”的时代,语音技术深入到人们生活的各方各面,让机器说话已不是幻想。然而,目前语音合成的质量仍不是很高,主要表现在:合成的语音自然度低、节奏感差,所以,语音合成自然度的进一步提高是目前亟待解决的问题。本文的研究工作主要针对汉语韵律结构中的韵律短语识别展开。韵律结构是以句法结构为基础的。通过对大量语料的分析可以看出,韵律结构和句法结构之间存在着一定的联系。由于语块本身可以反映出一定的句法信息,且人们在朗读或说话时往往是以语块为基本单位的,语块的切分可以把句法上相关的词进行整合,所以本文提出将语块结构这种非递归嵌套的浅层句法结构应用于韵律短语的预测。本文的主要工作包括以下几个方面:(1)语块的定义及获取目前对韵律层级的划分所使用的特征多为词、词性和词长。基于这些特征的局限性和韵律结构与句法信息之间的紧密联系,在对汉语语块结构与韵律结构之间的关系进行比较研究的基础上,本文定义了8种适用于韵律短语边界识别的语块类型,并归纳总结了语块的处理规则,通过语块之间结合紧密度的度量,实现了语块的归并,生成了最终的语块结构。(2)基于语块和条件随机场的韵律短语识别本文将语块结构这种非递归嵌套的浅层句法结构应用于韵律短语的预测,提出了一种基于语块信息,并利用条件随机场CRFs对韵律短语进行识别的方法。首先基于语块结构抽取、选择模型特征,然后利用CRFs训练构建模型用于韵律短语的识别。(3)基于语块和AdaBoost-SVM集成算法的韵律短语识别由于寻找一种较强的分类算法用于韵律短语的识别较为困难,基于强、弱学习算法的等价性问题,利用集成学习方法能够使多个准确率略高于随机猜测弱分类器进行加权融合,形成一个强学习算法,达到比强分类器更好的分类效果,所以,本文使用AdaBoost集成学习算法,以SVM作为基分类器,通过对训练语料多次随机抽取,经过多次训练更改权重,训练生成多个基分类器,最终将这几个基分类器进行加权投票的方法集成,形成一个新的强分类器完成对韵律短语的预测。本文分别使用CRFs、CRFs+语块、SVM、SVM+语块、AdaBoost-SVM+语块的方法实现了韵律短语边界的识别模型,并将各个模型的性能进行了对比,重点考察了使用语块信息与否时的模型性能。实验结果显示,在各种不同的方法下,引入语块结构后,模型的性能均比之前有了较为明显的提升。这就证明,语块信息能够在韵律结构的识别研究中得到应用并做出积极有效的贡献。
其他文献
社交媒体拥有巨大的用户群体,这些用户在社交媒体中留下的活动记录不仅是用户行为的真实反映,同时也记录着社交媒体中的信息传播过程。为研究应急事件背景下用户行为及信息传播
地图数据在网络环境下的可视化展现是一门飞速发展、应用也越来越广泛的综合性技术,能为决策者提供各种决策信息支持,可提高决策的质量和效率。基于AJAX和WEBService实现的WE
颅面测量作为人体测量的一个重要组成部分,在人类学、解剖学、临床医学、法医学、医疗器械设计、国家安全、人体识别、生物医学工程等领域有着广泛的应用。同时,如何充分利用
学位
用户界面的设计在计算机软件系统的设计中占有重要地位。尽可能早地将用户融入到设计过程中,建立界面原型,设计和描述界面的交互行为,对于快速迭代,获取用户评估意见,提高可
无线Mesh网络是近年来一种新兴的无线局域网技术。无线Mesh网络在提供网络服务的Mesh节点之间建立路由联系,不需要每个Mesh节点都与有线网络直接连接,极大地方便了无线网络的
论文研究了用于方言转换的语音识别技术,包括说话人自适应算法、连续语流音节切分算法和基于加权有限状态转录机(weighted Finite State Transducers,WFST)的关键词识别算法。普
蓝牙是一种短距离无线通信技术,用以代替数字设备和计算机外设间的电缆连线以及实现数字设备间的无线组网。遵循蓝牙规范的设备之间能够非常方便的建立数据和语音连接。这些体
作为浅层语义分析的一种实现形式,近年来语义角色标注逐渐发展成为自然语言处理领域的一个研究热点,并被广泛应用到问答系统、信息抽取以及机器翻译等多个领域。语义角色识别
工作流管理技术是一种新兴的信息处理技术,主要用来对工作流程进行控制和管理。国际上成立了专门的机构,对工作流管理技术进行研究。尽管目前工作流技术取得了相当的成果,但