基于深度学习的调频广播语种识别模型及应用

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhangsswei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会经济的高速发展以及全球化进程的加快,全球范围内的人员流动增加了拥有不同语言背景的人相互交流的机会,自动语种识别作为语音识别的第一步显得十分重要。全球人工智能的快速发展也促进了各项技术的升级,语音技术作为人类信息交流的桥梁技术,引得越来越多的科研工作者投入到实现良好语音交互的行列中。包括边境地区的无线电通信安全问题,也可采用语音识别的方法进行监测,实现快速精准的语种识别对后续所有与语音识别相关的工作显得极为重要。本文围绕广播的语音语种识别,对语种识别方法进行了详细的讨论与研究,主要工作如下:1)根据语种识别领域的对数据集的要求,采集了老挝语、普通话、缅甸语、泰国语和越南语共5种语言约25小时的数据集,并通过与其他数据集对比研究,确认数据的可靠性。2)结合语音处理的方法,建立广播信号识别数据集,利用深度学习对调频广播信号扫频录音保存后音频文件进行识别,以此来识别信号与非信号。3)采用I-Vector的方法建立可靠语种识别的基线系统,为后续试验的改进提供可靠的理论依据。4)以深层神经网络为基础,针对短时变长的语音信号,设计了两种采用底层声学特征作为输入的深度学习的语种识别方法。一种是基于门控循环单元(Gated Recurrent Unit,GRU)的语种识别,分析了不同参数的网络结构、不同的底层声学特征对在3种数据集中的表现,确定了合适的网络参数和结构,找出适合深度学习网络使用的特征;另一种是结合自注意力机制(Self-attention)和深层卷积网络的模型(Deep Convolutional Neural Networks,DCNN),对其在变长的语音语种识别中的运用进行了分析研究。对比了传统的声学特征模型与采用深度学习的区别,结果表明采用深度学习的方法可以达到比使用I-Vector更好的识别效果。
其他文献
旗帜引领方向,党建凝聚力量。近年来,我们坚持以党建引领办人民满意教育,着力理顺学校党建管理体制,全面压实学校党建工作责任,有力有效推动教育教学工作高质量发展,先后被省委组织
期刊
埃兹拉·庞德(Ezra Pound,1885-1972)是美国著名的诗人,同时也是著名的翻译家,他翻译的中国古诗,因言辞优美、生动达意,在英美文学界受到了普遍的肯定,并推动东方文学的普及,
随着高等院校师资结构比例中青年教师比例的不断增加,传统师德师风在青年教师身上发生了新的变化。在此通过剖析高校青年教师师德师风建设状况,提出在新形势下,青年教师一方
从高校师德师风建设的现状,加强师德师风建设的必要性和重要性,新形势下师德师风建设的原则与要求等方面进行了论述;通过多种途径,采取各种有效措施,不断加强师德师风建设,才
“绿色·科技·未来”作为第十八届(中国)寿光国际蔬菜科技博览会的主题,再一次让大家在这次农业盛事上感受到科技的美、看到未来农业在科技的支撑下的震撼。