采用无标注语料及词“粘连”剔除策略的韵律短语预测

来源 :山西大学 | 被引量 : 0次 | 上传用户:wangeryan8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技在进步,时代在发展。在这个"读图"和"听音"的时代,语音技术已不再陌生,让机器开口"说话"也不再是幻想。目前,语音合成的清晰度已达到人们的要求,流畅度却尚待提高,合成的语音自然度低、节奏感差。因此,提升语音合成的流畅度是当前亟待解决的问题。在语音合成技术的文本信息处理中,韵律短语的划分对语音合成的流畅度有着至关重要的影响。目前韵律结构预测方面的研究绝大多数采用人工标注韵律结构的语料,即人工标注语料,这种语料通常篇幅较小,若想扩大其规模又会受到诸多限制。因此,本文工作主要针对当前获取大规模的人工标注语料所面临的困难和问题而展开,研究采用无标注语料进行韵律结构预测的方法。利用标点符号能表示停顿的性质,本文提出一种采用无标注语料和词"粘连"剔除策略的韵律短语识别方法。本文工作可分为下列几个方面:(1)标点符号的等级划分与无标注语料的获取基于用标点符号模拟韵律标志的思想,利用标点符号能表示停顿且停顿时间长短不同、差异较大的性质,本文提出应该将标点符号划分为不同的等级区别对待,并赋予每一等级不同的权重。通过反复试验,我们获取了标点符号的最佳等级划分方法及各级的最优参数分配》之后,基于多级标点符号获得大规模的无人工标注韵律标志的语料,即无标注语料。(2)基于互信息的语法词"粘连"互信息在自然语言处理中被描述为衡量两个类或词之间相关程度的尺度。本文基于大规模无标注语料库(仅做了自动分词和词性标注处理),利用互信息对任意两个词性标记的邻接情况进行了统计和度量,并据此将联系较为紧密的语法词对“粘连"起来,形成"粘连单元"。本文认为"粘连单元"内的语法词结合相对紧密,其中出现韵律短语边界的可能性较小,应忽略不计。(3)基于最大熵模型及词"粘连"剔除策略的韵律短语自动识别首先,基于大规模的无标注语料构建用于韵律短语自动预测的最大熵模型;通过对人工标注语料的分析和统计,为基于句长的Top-K方法确定参数K的取值。其次,对待识别语料进行子句分割,利用构建的最大熵模型,结合Top-K方法,实现了韵律短语的初步预测。最后,基于"粘连"词性对集和"粘连"算法,对待识别语料进行"粘连"处理和标注,并依据标注结果,对韵律短语初始预测结果进行噪声剔除,获得最终的韵律短语识别结果。
其他文献
对于当前的海量数据分析或处理,数据通常存储在大规模集群的分布式文件系统(如GFS、HDFS)上。这些文件系统提供了对数据的便捷管理、高效访问以及容错性和扩展性。基于GFS和HD
针对社区发现算法的研究已经成为社会学、计算机科学、生态学和经济学等许多领域研究中最重要的课题之一。随着近年来互联网高速发展和移动终端的普及应用,使得复杂网络的种
随着计算机技术的飞速发展以及网络的普及,人们在应用过程中产生和收集的信息在规模、范围和深度等方面不断扩大。这些海量的数据在组成和功能之间存在着丰富和复杂的信息,因
随着Web的迅速发展,越来越多的网页可以通过表单提交来获取,这些表单提交所产生的网页是由Deep Web后台数据库动态产生的,蕴含了大量的信息。如何从Deep Web中快速准确的获取所
随着社会对安全的日益重视,与安全问题息息相关的视频监控系统也越来越多的受到关注。前景检测技术是视频监控的重要任务之一。它是目标跟踪、识别和定位等任务的重要前提,在
随着商业网络站点的不断涌现和用户访问量的急剧增加,给各种Web服务器提出了更高的性能要求,在有限资源条件下如何高效优化Web系统的性能成为系统开发和维护关注的焦点。通过
细胞中存在很多重要的生物过程,这些生物过程可以形象地用网络形式表示,例如转录调控网络、代谢网络、转录翻译网络以及信号传导网络等等,这些网络相互作用共同实现细胞的生物功
随着无线传感器网络的发展和不断成熟,目前该技术已经开始深入各个领域。其中包括病人监控,森林火警,动物追踪,物流业跟踪等。本文从最基本的无线传感器网络开始,结合GPS和GSM的应
MHC分子在免疫学中扮演着重要角色,该分子与多肽的结合反应是引起T细胞免疫的重要前提,所以MHC分子与多肽绑定预测问题成为了生物信息学中的研究热点。这方面的研究不仅有效的
随着万维网的快速发展,可搜索的在线数据库数量大大增加。这些在线可搜索数据库中的数据往往隐藏在查询接口之后,被称为深层网络。为了更好地利用这些隐藏在查询接口后的深层