【摘 要】
:
自动语音识别(Automatic Speech Recognition,ASR)能将人类语音经过计算机处理为文字的过程,是人与机器更顺畅交流的关键技术。在自动语音识别中,声学模型的主流框架为深度神
论文部分内容阅读
自动语音识别(Automatic Speech Recognition,ASR)能将人类语音经过计算机处理为文字的过程,是人与机器更顺畅交流的关键技术。在自动语音识别中,声学模型的主流框架为深度神经网络-隐马尔可夫混合模型(Deep Neural Network–Hidden Markov Model,DNN-HMM)。随着技术的发展,在海量语音数据加持下的深度神经网络自动语音识别系统取得了接近人类语音转写能力的优异成绩。目前世界上的语言约有7000多种,具有海量语音数据的语种仅有英语、汉语普通话等几种语言,大部分其它的语种由于语音资源采集成本较高,仅有少量的语音资源可供研究,然而在低资源环境下的深度神经网络语音识别系统效果往往表现不佳。随着社会发展的需要,将语音识别技术应用于低资源语种的需求越来越大。迁移学习是一种能够从一种或多种相似的任务中学习到知识,并利用这些学到的知识快速构建其他类似新任务的方法,称之为迁移学习。在基于深度神经网络的语音识别中DNN声学模型的每一层输出都是语音特征的深度表示,这种特征表示包含了人类语音的声学特征共性,通过调整网络参数很容易迁移为其它语种的声学模型,这为低资源语音识别能够通过迁移学习而获得较强的声学模型成为可能。为了提升基于深度神经网络的低资源语音识别声学模型的性能,本文对声学模型的迁移进行了若干方面研究。具体内容包括:跨语种的声学模型迁移是否有效;语种之间的相似性对声学模型迁移的影响;基础模型的数据量对迁移效果的影响;迁移声学模型的训练方式;单音素声学模型能否迁移到三音素声学模型;大数据量多语音共享隐层声学模型的迁移等。本文用资源丰富的汉语、英语训练基础声学模型,用维吾尔语作为低资源语种开展了各项实验。实验结果表明,迁移学习能够通过迁移基础模型来提高低资源语种声学模型的性能。
其他文献
城镇化与工业化是区域社会经济发展的具体体现,是通向现代化的必由之路。目前,工业生产方式正在陷入危机,城镇化发展遇到瓶颈,但新型工业化和新的城市形态已悄然兴起,从根本上讲,
云南某低品位含铁硫化铜矿含铜0.485%,铁10.84%,硫0.382%,氧化钙6.06%,二氧化硅49.46%,三氧化二铝12.50%,氧化镁2.58%,氧化钠4.07%等;铜以独立矿物的形式赋存于黄铜矿、斑铜
'认同何以可能'的反问在阐述中转化为对'认同建构何以可能'的逻辑演绎和方法分析。在逻辑演绎中,认同这种心理机制和关系模式,在单个认同主体或可供认同的单
随着电子商务在我国的快速发展,传统商贸业的营销模式受到前所未有的挑战。面对强大的冲击,传统商贸业不断涌入电子商务市场以谋求产业升级和转型。本文通过对内江市流通领域
目的探讨初中生行为问题的相关因素.方法对1585名初中一年级学生应用自编相关问卷及Rutter儿童行为问卷、父母养育方式问卷(EMBU)、艾森克个性问卷(EPQ)进行测评.结果行为问
阐述了坚持"管理、装备、培训"并重原则的必要性及三者的辩证关系,并在此基础上提出了该原则对构建安全生产长效机制的重要作用。
为了实现对蓄水坑灌苹果树蒸腾速率(WSPIT)的定量监测,研究基于遗传算法(GA)、列文伯格算法(LM)和附加动量算法(AM)优化的三种BP神经网络模型,建立了以气温、大气相对湿度、
为了克服传统网络资源分配方法难以满足用户QoS需求的问题,本文对基于效用的网络资源分配方法进行了研究。该类方法从用户的角度研究资源分配问题,已成为当前的研究热点,虽然取
随着我国交通技术的发展,我国公路建设事业得到了极大发展,交通里程稳居世界第二。目前,我国公路已经进入维修和养护期,大量沥青路面变形、车辙、磨耗、裂纹等病害,对于沥青路面维
【正】 黄庭坚(公元1045—1105年)字鲁直,号山谷道人,又号涪翁,洪州分宁(今江西修水县)人。宋哲宗绍圣元年(1094)新党执政,贬逐异已,黄庭坚以修《神宗实录》不实的罪名,贬为