基于循环神经网络的汉语语言模型效率与性能的优化与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:racheal2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的兴起,智能家居、智慧医疗、智能教育等将逐渐走进我们的生活、工作和学习。人工智能的这些应用都需要语音识别系统的支撑,才能完成人与机器的交互。语音识别系统中的语言模型对系统整体的效率和性能影响很大,通常效率和性能的杠杆又很难平衡。因此,研究如何在提升效率的同时保证性能不下降甚至有所提升有着重要意义。本文主要针对语音识别过程中对识别精准度要以及计算速度要求较高的应用场景进行相关优化。本课题基于科大讯飞股份有限公司语音识别组“基于RNN(Recurrent Neural Network)循环神经网络语言模型的语音识别优化”项目。本文通过分析N-Gram语言模型的不足提出了采用RNN语言模型,但是RNN语言模型的高计算复杂度很大程度上限制了其在实际场景中的应用。通过分析研究,本文给出了一种基于RNN语言模型的定点化优化方案。该方案采用SIMD(Single Instruction Multiple Data)单指令多数据流指令集,将RNN语言模型的浮点数(float)矩阵运算转化为定点数计算,以提高模型的运算效率。在上述针对RNN模型效率提高的同时带来的性能略微波动,经过研究后本文给出了一种流水线性能优化方案。该方案在RNN语言模型计算中对扩大了的N-Best相似部分进行合并,形成前缀树型结构,采用多线程流水线方案进行计算,从而达到在提升RNN模型性能的同时其效率也得到了提升。在上述方案中,本文对扩大了的N-Best结果使用RNN语言模型和N-Gram语言模型分别再次进行打分并插值计算,然后对插值计算后的结果进行重新排序,最后选出最优的结果作为最终的识别结果。最后对定点化效率优化方案和流水线性能优化方案进行测试。实验结果表明,定点化方案提高了RNN语言模型运算效率,且保证性能无明显波动。再对扩大了的N-Best的结果使用多线程流水线的前缀树优化,结果表明在保障效率提升的同时性能有所提升。本文提出的优化方案目前已经应用于科大讯飞股份有限公司的讯飞输入法软件。
其他文献
动物的味觉识别是通过口腔味觉细胞中的味觉受体来启动。味觉受体T1R家族中的T1R2和T1R3以异构体方式发挥甜味识别作用,其中T1R2起主导作用,T1R3对T1R2结合位点构象起调节作
通过设计的水文变异序列生成器生成满足P-型分布及统计参数,用统计实验的方法比较分析了10种常用水文序列变异点检验方法对3类变异序列的性能检验。结果表明,秩和检验、Brown
张爱玲这位被称为"今日中国最重要作家"的文坛"异数",用她那苍凉和虚无编织了一个个震惊文坛的爱情传奇。在她笔下,爱情世界永远透露着令人战栗的苍凉感,而这种苍凉感主要源
1月12日,全市组织部长会议召开,传达贯彻全国、全省组织部长会议精神,回顾总结去年工作,安排部署今年任务。市委书记孙述涛对全市组织工作作出批示,市委常委、组织部长刘运出席会
报纸
基于滦河流域三道河子站、承德站和滦县站1956~2009年的降水和径流资料,运用Mann-Kendall秩次相关检验等方法系统分析了滦河流域径流和降水的年际、代际、年内变化特征及变化
多年来为降低煤矿定员、提高劳动生产率做了多方面的努力。但由于经营管理体制方面的限制,未能从根本上得到解决。随着国家经济体制改革,已具有研究这一问题的时机。调整煤矿设
目的:通过运用数据挖掘技术,系统地整理分析历代方剂信息,同时结合中医基础理论、著名医家经验讨论数据挖掘结果,探索茯苓的用药特点和配伍规律。将其提炼归纳形成中医临床的
船闸闸墙水平位移是船闸性态的综合反映,分析了引张线法进行闸墙顶部水平位移监测是优选方案,总结了引张线法进行某船闸闸墙水平位移监测的原理、计算方法、数据分析和维护检
对无线移动网络通信用户节点进行准确跟踪,能够有效提高网络运行稳定性。对通信用户节点的跟踪监测,能够建立节点生存期函数,选取生存期最大化节点作为跟踪目标,完成对用户节
<正>目的探讨阻塞性睡眠呼吸暂停低通气综合征(OSAHS)发病的遗传模式和特征。方法对143例OSAHS先证家系和130例对照家系OSAHS患病情况进行研究。应用Li-Mantel-Gart法、Falco
会议