语音句子边界检测的模型及评价标准

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:qqanjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:语音作为一个交叉学科,具有深远的研究和应用价值。语音句子边界检测是语音识别中的一个重要步骤,它可以使语音识别具有更好的可读性,并能使我们理解语言处理模块。本文介绍了语音句子边界检测中常用的模型及评价标准。
  关键词:边界检测;语音识别;模型;评价标准
  中图分类号:TN912 文献标识码:A文章编号:1007-9599 (2010) 05-0000-02
  Models and Evaluation Metrics for Sentence Boundary Detection in Speech
  Hu Gaodie,Ma Jianfen
  (Taiyuan Technology University,Computer and Software College030024,China)
  Abstract:Speech,as a interdiscipline subject has very profound value of research and application.Sentence boundary detection in speech is an important step in speech recognition,it can make speech recognition more readable and enable us to understand language processing modules.This paper introduce common models and evaluation metrics for sentence boundary detection in speech.
  Keywords:Boundary detection;Speech recognition;Models;Evaluation metrics
  一、简介
  近几年来,人们对语音识别技术产生了广泛兴趣。然而目前的语音识别系统主要以字或词为单位。在这些语音识别系统中,很少提到句子边界检测。但是句子边界检测确实可以使语音识别更具有可读性。语音边界检测是一个分类问题,我们可以根据每个词间的边界来决定它是否是语音句子边界。
  二、常用的模型
  (一)隐尔马可夫模型(Hidden Markov model,HMM)
  最早的句子切分中就已经用到了HMM。设模型的状态对应词wi,结果标志ei。与状态相关的是词以及韵律特征fi。下图给出了SU检测问题的图式模型。
  HMM中的观察似然度由决策树分类器来实现的,得到产生韵律特征的概率P(fi|ei,wi);用N元语言模型来计算转换概率:P(wiei|w1e1…wi-1ei-1)= P(wi|w1e1…wi-1ei-1)×P(ei|w1e1…wi-1ei-1ei)。在HMM中,前向-后向算法用来决定每个词间边界的最大后验概率: 。
  HMM也是一个生成模型方法,这是因为它描述一个隐藏变量(句子边界)的随机过程,而这个过程产生观察数据[5]。
  HMM方法有两缺陷:一是HMM的训练不能取正确标记后验概率的最大值。二是基于N元序列模型不能处理词序列的多重特征表示。
  (二)最大熵后验概率模型
  最大熵后验概率模型可以解决以上提到HMM的两大缺陷。设边界位置为i,最大熵模型可表示为以下形式:
  (1)
  其中 是一个标准化术语,ti表示文本信息,gk(ei,ti,fi)对应所定义的词、韵律的特征。最大熵的模型是由所找到的参数 来估计的,在训练数据中,不同的特征功能的期望值EP[gk(e’,w,f)]匹配经验平均值。同时,在训练集中的参数所选择的最大条件似然度∏iP(ei|w,f)很容易受到(1)式中所给的指数的制约。
  (三)语言模型(The language model,LM)
  对于SU边界检测而言,语言模型的目的是模访包含在词序列中的结构信息,我们用一个隐语言模型(Stolcke and Shriberg,1996)去模仿边界类型和词之间的联合分布。W表示一连串口语w1,w2,…wn,E表示词间事件的序列e1,e2,…en。隐藏语言模型描述词与事件之间的联合分布P(W,E)=P(w1,e1,w2,e2,…wn,en)[1]。
  三、评价标准
  句子边界检测有许多评价标准,以下描述了一些常用的评价标准。
  (一)分类错误率(CER)
  如果决策问题是一个基于词间边界点的分类任务,则分类错误率:
  
  其中:fn(false negative)为错误的否定;
  fp(false positive)为错误的肯定;
  tp(true positive)为正确的肯定;
  tn(true negative)为正确的否定。
  后两种都为正确的分类结果。
  (二)F-测量(F-measure)
  F-测量主要用于信息检索[3]。
   。其中 ; 。
  (三)ROC曲线
  受试者工作特征曲线(Receive Operating Characteristic Curve,ROC),一方面用于通信方面,是一种用于信号探测的术语,用来体现噪声信道击中率与错误报警之间的平衡。它体现了正确的肯定( )与错误的肯定( )之间的平衡关系。
  (四)PR曲线
  精确率与反馈率(precision-recall)曲线,一般用于信息检索方面,体现了精确率与反馈率之间的关系,曲线成双曲形状。
  (五)DET曲线
  检测错误曲线(Detection error tradeoff Curve),此曲线划分错误率(=1-正确的肯定)与错误警告(例如错误的肯定),用于常规的偏差范围。它广泛的应用于口语识别的任务中[3]。
  (六)AUC曲线
  ROC曲线下方的面积曲线(The Area Under the ROC Curve,AUC),一般的讲,面积越大,模型越好。这里的面积可以理解为分类器将随意抽取的肯定类实例排在随意抽取的否定类实例之前的概率。ROC曲线在不同的决策点为系统提供一个好的观察度。
  (七)NIST错误率
  美国国家标准技术局(NIST)错误率是一些边界检测的插入与删除错误的总和。NIST错误率=[3]。
  (八)SU(sentence-like unit)错误率
  在DARPA EARS项目中,SU检测是不同于以上几种标准的。SU错误是每个SU中的一些分类错误的点(失败或错误的检测点),当用SU检测识别脚本(transcription)时,计分工具首先将会议与假设词排成一行,绘制假设的SU事件和会议SU事件,然后计算错误率。当识别输出词不能很好的排成一行时,队列将词错误率(WER)最小化[1]。
  四、结束语
  本文介绍了语音句子边界检测中常用的检测模型,以及常用的评价标准。目前,互联网迅猛发展,每天都有大量的广播与新闻等出现在网络上,这就迫使人们对语音句子边界检测的相关方面进行研究与应用。
  参考文献:
  [1]Yang Liu, Nitesh Chawla, Mary Harper, Elizabeth Shriberg, and Andreas Stolcke, "A Study in Machine Learning from Imbalanced Data for Sentence Boundary Detection in Speech ", Computer Speech and Language, V20(4), pp 468-494, 2006.
  [2]Dustin Hillard, Mari Ostendorf, Andreas Stolcke, Yang Liu, and Elizabeth Shriberg, "Improving Automatic Sentence Boundary Detection with Confusion Networks",HLT/NAACL 2004.
  [3]Yang Liu and Elizabeth Shriberg, "Comparing Evaluation Metrics for Sentence Boundary Detection",ICASSP, 2007.
  [4]Yang Liu, Andreas Stolcke, Mary Harper, and Elizabeth Shriberg, "Comparing and Combining Generative and Posterior Probability Models: Some Advances in Sentence Boundary Detection in Speech", EMNLP 2004.
  [5]Yang Liu, Elizabeth Shriberg, Andreas Stolcke, and Mary Harper, "Using Machine Learning to Cope with Imbalanced Classes in Natural Speech: Evidence from Sentence Boundary and Disfluency Detection", ICSLP 2004.
  [6]Yang Liu,Andreas Stolcke, Elizabeth Shriberg, and Mary Harper, "Using Conditional Random Fields For Sentence Boundary Detection in Speech", ACL 2005.
其他文献
通过介绍流量仪表在化工生产过程中的作用及其选型,了解到流量仪表在化工生产中起着至关重要的作用,它不仅是提高产品质量的保证,而且是企业提高经济效益的重要手段;由于其重
主要介绍了二灰钢渣的产生过程,说明了其化学主分和物理性能,二灰钢渣的强度机理,二灰钢渣应用中的优点及注意事项。二灰稳定钢渣中的钢渣均属于工业废渣稳定类半刚性公路基
当前,我国正处于一个社会转型时期,一些社会矛盾集中显现,导致了群体性事件的频发。涉法类群体性事件的发生反映了当前司法体制下的司法腐败和司法不公、司法公信力下降。通
学习汉字书写是一种笔墨语言的学习。学习汉字书写,应在优秀的书迹中学习作为书写本身笔墨语言的共性规律、内在秩理,结合相关理论的学习,应用到自己的书写实践中,提高汉字书
概率在日常生活中有着非常重要的作用;由个人的心理等因素导致的主观概率则经常影响人们对许多事物的判断。主观概率在很多情况下会失真。失真的原因一般由公开程度暗示、细
当前大学生信仰危机凸显,大学生人生信仰失落、实用主义价值观抬头、宗教信仰蔓延、政治信仰缺失的现象显现。针对这种情况,高校要加强思政课教学实效,发挥大学生信仰教育主
"争先创优"对于"思政"课教师而言,首先就是要全面地认识目前"思政"课所面临的困境。基于"以学生为本"的教学理念,"思政"课教师应该在"思政"课的教学内容、方法、手段上做出积极的改革尝试
文章针对中职语文教学中培养学生的专业能力、中职语文教学中培养学生的学习方法以及中职语文教学中培养学生的社会能力三个方面的内容进行了详细的分析和探析,从而详细地论
体验缺失是历史文化遗产旅游中存在的普遍问题,而目前对其游客体验的研究并没有得到足够的重视,特别在指导实践方面有着不小的空间。为此,在大量的文献研究的基础上,通过对游