基于语种识别系统的语言距离关系研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：chengqiantu

【摘要】

：

本文主要的研究内容为使用语音数据来研究语言之间的距离关系。对于语言距离关系的定义,语言学家通过语言是否同源以及语言之间发音、字词、语法规则的对应关系来研究语言之

【作者】

：

孙乐

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2016年期

【关键词】

：

语言距离关系语种识别 Gentle AdaBoost算法语言关系图

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文主要的研究内容为使用语音数据来研究语言之间的距离关系。对于语言距离关系的定义,语言学家通过语言是否同源以及语言之间发音、字词、语法规则的对应关系来研究语言之间的距离关系,最终生成语言谱系树来反映语言的从属关系,这属于定性研究；经济学家将语言之间的距离定义为母语为一种语言的人学习其他语言的难易程度,这属于定量研究。不论是在文化还是经济领域,语言距离关系的研究都具有一定的应用价值。本文通过语种识别系统的输出——识别率来定义语言之间的距离关系,其中最关键的就是语种识别系统的搭建,它直接关系到语言之间距离关系的可靠程度。语种识别系统的搭建主要包括特征提取和模型训练两部分。在特征提取部分,本文先提取输入语音信号的56种声学特征以及它们的一阶、二阶差分值,然后使用39种统计函数来描述这些声学特征,最终生成6552维特征向量；在模型训练部分,本文采用区分性建模方法——Gentle AdaBoost算法。最后将语言距离矩阵映射到二维平面,生成语言关系图,直观的反映了语言之间的距离关系。本文的主要研究成果包括：(1)本文使用语音数据来研究语言之间的距离关系。通过语种识别系统的输出——识别率来定义语言之间的距离,并将本文得到的语言距离与之前语言学家和经济学家的研究成果作比较,实验表明本文的距离度量方法与之前的研究成果较为一致。(2)在语种识别系统的搭建中,采用一种全新的方法提取输入语音信号的特征,该方法与以往的方法最大的不同在于,一个输入语音样本对应一个特征向量,而不再是每一帧都对应一个特征向量。然后采用Gentle AdaBoost算法训练语言模型,在OGI数据库和NIST LRE15数据库上进行语种识别系统的性能测试,实验表明本文的语种识别系统性能要优于传统的基于GMM的语种识别系统；(3)将得到的语言距离矩阵映射到二维平面,生成语言关系图。在OGI数据库和NIST LRE15两个数据库上进行实验,验证了本文所使用的语言距离研究方法在不同的数据库上的一致性。

其他文献

无线通信信号调制方式的自动识别算法研究

随着通信技术的发展,调制识别在军用和民用两个领域都有着广泛的应用背景,尤其是在非合作通信领域。调制识别是指在先验信息不足,或者说是没有先验信息的条件下,通过对接收信

学位

调制识别瞬时参数高阶累积量特征参数判决树

处理器数据处理单元的微结构优化方法研究

随着计算机技术的普遍应用,日益复杂化的应用程序呈现出越发多样的瞬间运行特征。数据处理单元作为系统芯片的核心单元,它的性能与应用程序密切相关,而传统的固定结构设计不

学位

数据处理单元乘累加单元数据预取机器学习自调

基于字典扩展的稀疏表示鲁棒人脸识别算法研究

人脸识别以其友好性和便捷性,成为生物识别的研究热点。基于稀疏表示人脸识别方法因诸多优点受到广泛关注,本文基于国内外相关学者研究基础上,分成三章节对稀疏表示人脸识别

学位

图像识别稀疏表示低秩恢复扩展字典主成分分析最大概率表示

基于DSP的视频图像火焰识别算法及其优化实现

火灾是一种常见多发,且对人民生命和财产安全造成严重危害的自然灾害。传统火灾探测技术主要基于感温、感光、感烟等技术,易受空间高度、监测面积、空气流速、粉尘、温度等周

学位

火焰识别运动检测多均匀分布背景模型线性汇编DM6437

数字通信系统中频偏估计技术的研究

数字通信中,系统同步的性能十分重要。数字通信中发送的信息是经过编码的码元序列,再用该序列去改变载波的某一个或多个参数,实现数字载波调制。通常从提高抗干扰性能与频带

学位

频偏估计载波同步锁相环数据辅助估计(DA)非数据辅助估计(NDA)

压缩采样中的模拟信息转换技术研究

随着电子信息的发展,军事部门越来越依赖于利用无线电通信对部队进行指挥与部署。现代军事战争已演变为一场对电子资源利用与争夺的战争,敌对双方在信号截获与反截获的斗争将

学位

压缩传感跳频信号定频抑制参数估计模拟信息转换器

基于语种识别系统的语言距离关系研究

其他学术论文