【摘 要】
:
语音识别技术是以语音为研究对象,通过语音信号处理和模式识别技术让计算机自动识别和理解人类的语音,并将语音转换为相应文本序列的技术,在语音输入、语音助手、智能家居、无人驾驶、机器人语音指令交互等工程中具有重要应用价值。随着深度学习技术的发展,基于神经网络的语音识别技术逐渐成为国内外研究热点。藏语语音识别技术由于受语料库、自然语言处理技术以及多方言等限制,发展比较缓慢,但其需求非常迫切。为了促进藏语语
【基金项目】
:
国家自然基金项目“基于深度学习的藏文向量表示方法研究(61866032)”; 国家自然基金项目“基于深度学习的藏语情感语音合成技术研究(61966031)”; 青海省重点研发与转化计划项目“面向农牧区的藏语智能语音交互关键技术研究(2019-SF-129)”;
论文部分内容阅读
语音识别技术是以语音为研究对象,通过语音信号处理和模式识别技术让计算机自动识别和理解人类的语音,并将语音转换为相应文本序列的技术,在语音输入、语音助手、智能家居、无人驾驶、机器人语音指令交互等工程中具有重要应用价值。随着深度学习技术的发展,基于神经网络的语音识别技术逐渐成为国内外研究热点。藏语语音识别技术由于受语料库、自然语言处理技术以及多方言等限制,发展比较缓慢,但其需求非常迫切。为了促进藏语语音识别技术的发展,文章以安多藏语语音为研究对象,采用深度学习技术,从藏语文本语料库及安多语音语料库构建、语料库预处理、声学模型和语言模型构建及安多藏语语音系统的设计实现等方面研究了安多藏语语音识别关键技术。(1)语料库构建方面通过分析藏文文本特征和安多藏语语音特点,采集了大小为284.2MB不同类型文本语料和170小时安多藏语语音语料库。(2)语料库预处理方面根据安多藏语语音识别的实际需求,对语料库进行了规范化、字丁切分/标注等预处理,制定了藏文数字文本分类及规范规则,设计了面向语音识别的藏文字丁切分/标注算法,并统计了藏文字丁分布。藏文数字文本分类和规范的平均准确率分别达99.45%和99.28%,藏文字丁切分/标注准确率达99.99%。(3)声学模型和语言模型构建方面分析安多藏语语音特征的基础上,设计了以字丁为建模单元的MRDCNN_CTC&Transformer的安多藏语语音识别模型,其中声学模型采用融入多尺度、残差网络的卷积神经网络与时序分类算法MRDCNN_CTC,语言模型采用Transformer。(4)安多藏语语音识别系统的设计实现方面在构建安多藏语语音识别声学模型和语言模型的基础上,设计实现了基于MRDCNN_CTC&Transformer的安多藏语语音识别可视化系统,并实验验证了声学模型、语言模型和识别系统的性能。实验表明,声学模型的错误率为18.67%,语言模型的错误率为2.8%,语音识别的错误率为18.87%。
其他文献
图论作为数学的一个重要分支,在很多领域有着非常广泛的应用并且发挥着十分重要的作用.与图论有着密切联系的拟阵理论也有几十年的发展历史,1935年Whitney首次提出了拟阵的概念.拟阵是图论和线性代数中重要概念的抽象,借鉴了图论和线性代数中的许多符号和表示方法.随着拟阵理论的不断发展,它已经被广泛地应用于组合数学,计算机科学、网络理论等领域.本文在李萍和张英豪研究拟阵圈图和拟阵基的交图的基础上,进一
利用计算机辅助诊断技术对医学图像进行分析处理,能够为疾病的诊断和治疗提供有力的凭据。医学图像分割是实现医学图像处理的关键步骤。传统的医学图像分割依赖于手动提取特征,这使得分割任务繁重且复杂。近年来,随着深度学习的发展,人们能够利用全卷积神经网络出色的特征学习能力和端到端的处理模式进行医学图像分割。本文以乳腺X线图像的肿块分割和眼底图像的视网膜血管分割作为研究内容,具体细节如下:1.乳腺肿块分割常用
当前,互联网数据转发采用的是以目的IP地址进行逐跳转发的传输机制,传输的数据报文经“发送源端生成数据—中间节点转发数据—目的终端接收数据”的整个转发全过程存在着严重的数据源验证的安全缺陷。在数据转发时单靠目的IP进行转发,而没有对转发数据报文的源IP地址进行验证,有可能造成伪造源地址的数据报文代替原始数据报进行“合法”通信,一旦目的终端接收了伪造报文就能以欺骗手段来获取目的终端的信任,进而黑客就可
随着人工智能、大数据等新兴产业的迅速发展,网络科学的研究越发深入并显得十分重要,比如复杂网络相似性指标被大量用于链路预测、推荐技术和数据挖掘等领域。近年来,基于超图结构的超网络因其更符合现实网络结构的特点,越来越被人们重视并在超网络结构上做了大量研究。本文系统的研究和分析了超网络上的相似性指标,从超边相似性和节点相似性两个方面提出了四类相似性指标,在三类典型超网络模型上对相似性指标的预测精准度进行
拉姆齐理论是组合数学的一个重要组成部分,它在理论计算机科学、信息论、决策学以及金融经济学等一些领域应用较为广泛.拉姆齐数是将拉姆齐理论的存在性定理进行了量化,求解图的拉姆齐数的精确值以及改进它的近似界是研究拉姆齐理论中较为活跃的分支.同时图的拉姆齐数研究在计算几何、逻辑分析、并行计算、复杂结构以及解决其他NP困难问题上也扮演着重要角色.解决拉姆齐数问题的关键是通过寻找有效的研究工具计算出精确值.C
中药资源作为国家战略性资源,关乎我国中药产业和中医药事业的发展,而民族医药资源是中药资源的重要组成部分。部分中药资源的根、花、茎、果等部位通常含有相同种类的化学成分和药效,由于缺乏科学的认识,常弃掉其非传统药用部位;此外,对合理利用开发药用植物资源的认识不足,加之利益驱使过度采挖、拓荒和放牧等因素,造成药用植物资源严重浪费。秦艽Gentianae Macrophyllae Radix作为“十八青药
三江源作为中国最大的自然保护区,其丰富的生态资源琳琅满目,又被誉为中华水塔,对中国的生态状况及国民经济发展起着重要作用,在西部大开发生态环境的治理保护担负着重要的责任。本文将针对三江源生态保护区特有的动植物图片进行图像识别与分类,设计一种基于残差学习网络的方法对图像进行识别,通过迁移学习,在预训练模型的基础上进行训练,从而得到最终模型。本文将从数据的采集工作即数据集的建立开始,到图像识别分类的一般
语言与文字是最善于发掘人类智慧的知识,是古老文明的典藏,也是当今自然语言处理和知识图谱的核心资源,而自然语言处理和知识图谱是人工智能得以实现的关键,是人工智能皇冠上的明珠。突破自然语言处理和知识图谱,会大幅推动人工智能在学术界和工业界等很多领域的广泛关注与应用。近年来,在大数据和深度学习的支撑下,自然语言处理和知识图谱技术迅猛发展,而人类迫切需要从这些浩如烟海的数据中快速准确地获取自己想要的信息或
光催化技术被认为是一种能够解决环境污染和能源短缺问题的理想技术。Bi2O3作为一种半导体光催化剂,由于其具有合适的能带结构和优异的化学稳定性,成为目前被广泛研究的可见光光催化剂。然而,Bi2O3光催化剂中较高的光生电荷复合和有限的光吸收范围严重影响着其在光催化领域的应用。因此,本论文以Bi2O3为研究对象,通过不同的策略对其进行改性研究,旨在提高其光催化降解和还原效率。本研究不仅为Bi2O3满足不
情感是计算机所不具备的一种主观意识,是自然语言处理研究领域中重要的一步。文本情感分析(Text Sentiment analysis)是对带有情感色彩的评论性文本进行情感倾向判断,需要考虑情绪感受而不是简单的逻辑计算。对自然语言处理领域而言,具有情感分析能力是质的飞跃。随着互联网的发展,在线语料的潜在价值得到各界科研人员的广泛关注,推动了评论性文本情感分析研究领域的发展。目前文本情感分析方法仍存在