基于解码多候选结果的半监督数据挑选的语音识别

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:haozhizhegogo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于资源稀少情况下的语音识别,提出针对大量无标注数据的半监督学习的挑选策略,应用到声学模型和语言模型建模.采用少量数据训练种子模型后,解码无标注数据.首先在解码的最佳候选结果中采用置信度与困惑度结合的方法挑选高可信的语句训练声学模型及语言模型.进一步对解码得到的格进行转化,得到多候选文本,用于语言模型训练.在日语识别任务上,相比基于置信度挑选数据的方法,文中方法在识别率上具有较大提升.
其他文献
【正】 语文教学有序与无序的现象语文教学作为一门学科是科学的、有序的。它体现在学科目标上是标准的。《大纲》规定的语文教学目的完整地表述了语文训练和思想政治教育二
基于自表示关联图的谱聚类模型性能受冗余特征影响较大.为了缓解高维数据无效特征的负面影响,文中提出联合特征选择和光滑表示的子空间聚类算法.首先基于自表示思想构建系数矩阵
【目的】探讨体外流体切应力对内皮祖细胞(EPC)再内皮化能力的影响及可能的分子机制。【方法】入选10名排除心血管病危险因素、病史和临床证据的青年志愿者[(25.4±6.6)岁],