论文部分内容阅读
英语口语发音评估是计算机辅助口语学习所面临的一个重要课题。尽管当前的口语发音评估系统可以提供一些令人振奋的评估结果,但它们大多关注发音的声学特征,很少关注口语中具体语法的应用。尽管可以提供波形对比或其他形式的反馈给口语学习者,很少系统可以提供有助于口语学习者提高指定口语发音技巧的有用信息。本文主要研究英语口语学习中的连读和易混淆音(phoneme that is hard to be distinguished,下文称HDP)。本文首先给出了英语口语发音中连读的评估模型。英语口语的连读评估是计算机辅助口语学习需要解决的重要问题。尽管有很多因素影响口语评估算法,口语发音的随意性和现有语音处理系统的不稳定性成了两个要解决的主要问题。本文通过引入Sugeno积分来解决连读评估面临的问题。首先通过模糊测度和可信度给自然语言发音的随意性和语音处理系统的不稳定性建模,然后把它们融合到Sugeno积分框架内,评测出语言得分而不是具体的分值。实验表明,在58%的系统平均识别率下,该连读评估模型在封闭和开放测试中显现了很好的可信度和稳定性,这激励我们今后把该模型用于探索英语口语其它方面的评估。接着,本文给出了HDP的评估模型。当前,大多数研究人员把精力集中到通过提高语音识别率而去构建一个高可信度的评估系统,然而,仍需要一个评估模型能够把现有语音处理系统的可信度以及口语练习者的个性化融合到评估系统中去。本论文中,通过引入Sugeno积分来解决上述问题。首先,搜集了国人的HDP,把它们归类到不同HDP集,每一个HDP集由彼此间不易被中国学生辨别的音素构成。系统对不同HDP集辨别的可信度基于标准语料库得到,然后把音素识别结果一并集成到Sugeno积分框架下。模糊测度基于包含10个属于同一个HDP集的音素的语言片断的各个子集构建。最后,根据系统的可信度和模糊测度,通过Sugeno积分模型给出语言学评分。基于Sphinx-4的实验结果显示,在84.7%的音素平均正确识别率的情况下,该评估模型对于3个测试集可以得到可信的和稳定的评估结果。