论文部分内容阅读
口语评测是一种学生按照某种要求发音,计算机根据学生发音的标准程度来自动评分的技术。传统的文本相关评测任务要求学生严格依照指定的文本发音,对应朗读或者严格背诵的情境,通常采用帧规整对数后验概率作为衡量发音标准程度最主要的特征,该特征与人工分具有较高的相关度,此技术也已经有了广泛而成功的应用。但在文本无关情境下,比如要求考生在给定主题约束下,针对该主题进行一段自由表述,通过衡量发音的标准程度和词汇语法使用规范程度来评分,这种任务无论国内还是国际上都鲜有研究;本文尝试对此展开初步的研究工作。具体的,是针对国内普通话水平测试(Putonghua Shuiping Ceshi, PSC)的第4题进行自动评分的研究。该题要求考生在3分钟内进行一段给定主题的自由表述,与本文的研究非常契合。本文的主要研究工作概述如下:首先,本文探究了如何采用识别的方法,对文本无关口语评测计算类似于文本相关任务中常用的后验概率特征,以此来评估发音的标准程度。具体的,利用DNN-HMM的语音识别模型对考生表述的语音做识别,再在此框架下计算解码中的每个音素相对于发音矢量的后验概率,并针对PSC考试第4题的具体情境进行了改进。实验表明,该后验概率与人工分具有较高的相关度。其次,由于本论文后验概率特征计算的过程非常依赖于识别的性能,为了提升识别器的准确率,采用递归神经网络(Recurrent Neural Network, RNN)语言模型来对一遍解码出的N-best候选做语言模型得分重估计(Rescoring),选取Rescoring后得分最大的候选句子作为新的识别结果:实验结果发现,这样修正后无论是识别率还是后验概率特征与人工分的相关度,都有一定的提升。再者,为了衡量考生表述语音中的方言口音程度,本论文借鉴多语种-神经网络(Multi-lingual Neural Network)的方法,在解码神经网络的输出引入额外的方言数据状态节点,获得每一帧数据相对于方言数据模型的似然度得分,从而在后验概率计算公式的分母上引入方言得分,初步估计发音的方言程度。然后,为了关注表述的流畅程度,本论文采用每句话的音素平均发音帧数来计算语速特征,以此初步估计流畅程度。另外,尝试使用条件随机场(Conditional Random Field, CRF)训练分句模型,从内容上对识别结果进行句子边界判断。实验表明,重新分句后计算的语速特征与人工分具有更高的相关度。最后,使用矢量空间模型(Vector Space Model, VSM)对识别结果建模,从内容上评估表述的词汇语法使用规范程度。实验发现,对VSM模型采用一层RBM变换会获得较好的性能。同时,为了评分的公平性,还进行了离题检测相关任务。