论文部分内容阅读
摘要:语音作为一个交叉学科,具有深远的研究和应用价值。语音句子边界检测是语音识别中的一个重要步骤,它可以使语音识别具有更好的可读性,并能使我们理解语言处理模块。本文介绍了语音句子边界检测中常用的模型及评价标准。
关键词:边界检测;语音识别;模型;评价标准
中图分类号:TN912 文献标识码:A文章编号:1007-9599 (2010) 05-0000-02
Models and Evaluation Metrics for Sentence Boundary Detection in Speech
Hu Gaodie,Ma Jianfen
(Taiyuan Technology University,Computer and Software College030024,China)
Abstract:Speech,as a interdiscipline subject has very profound value of research and application.Sentence boundary detection in speech is an important step in speech recognition,it can make speech recognition more readable and enable us to understand language processing modules.This paper introduce common models and evaluation metrics for sentence boundary detection in speech.
Keywords:Boundary detection;Speech recognition;Models;Evaluation metrics
一、简介
近几年来,人们对语音识别技术产生了广泛兴趣。然而目前的语音识别系统主要以字或词为单位。在这些语音识别系统中,很少提到句子边界检测。但是句子边界检测确实可以使语音识别更具有可读性。语音边界检测是一个分类问题,我们可以根据每个词间的边界来决定它是否是语音句子边界。
二、常用的模型
(一)隐尔马可夫模型(Hidden Markov model,HMM)
最早的句子切分中就已经用到了HMM。设模型的状态对应词wi,结果标志ei。与状态相关的是词以及韵律特征fi。下图给出了SU检测问题的图式模型。
HMM中的观察似然度由决策树分类器来实现的,得到产生韵律特征的概率P(fi|ei,wi);用N元语言模型来计算转换概率:P(wiei|w1e1…wi-1ei-1)= P(wi|w1e1…wi-1ei-1)×P(ei|w1e1…wi-1ei-1ei)。在HMM中,前向-后向算法用来决定每个词间边界的最大后验概率: 。
HMM也是一个生成模型方法,这是因为它描述一个隐藏变量(句子边界)的随机过程,而这个过程产生观察数据[5]。
HMM方法有两缺陷:一是HMM的训练不能取正确标记后验概率的最大值。二是基于N元序列模型不能处理词序列的多重特征表示。
(二)最大熵后验概率模型
最大熵后验概率模型可以解决以上提到HMM的两大缺陷。设边界位置为i,最大熵模型可表示为以下形式:
(1)
其中 是一个标准化术语,ti表示文本信息,gk(ei,ti,fi)对应所定义的词、韵律的特征。最大熵的模型是由所找到的参数 来估计的,在训练数据中,不同的特征功能的期望值EP[gk(e’,w,f)]匹配经验平均值。同时,在训练集中的参数所选择的最大条件似然度∏iP(ei|w,f)很容易受到(1)式中所给的指数的制约。
(三)语言模型(The language model,LM)
对于SU边界检测而言,语言模型的目的是模访包含在词序列中的结构信息,我们用一个隐语言模型(Stolcke and Shriberg,1996)去模仿边界类型和词之间的联合分布。W表示一连串口语w1,w2,…wn,E表示词间事件的序列e1,e2,…en。隐藏语言模型描述词与事件之间的联合分布P(W,E)=P(w1,e1,w2,e2,…wn,en)[1]。
三、评价标准
句子边界检测有许多评价标准,以下描述了一些常用的评价标准。
(一)分类错误率(CER)
如果决策问题是一个基于词间边界点的分类任务,则分类错误率:
其中:fn(false negative)为错误的否定;
fp(false positive)为错误的肯定;
tp(true positive)为正确的肯定;
tn(true negative)为正确的否定。
后两种都为正确的分类结果。
(二)F-测量(F-measure)
F-测量主要用于信息检索[3]。
。其中 ; 。
(三)ROC曲线
受试者工作特征曲线(Receive Operating Characteristic Curve,ROC),一方面用于通信方面,是一种用于信号探测的术语,用来体现噪声信道击中率与错误报警之间的平衡。它体现了正确的肯定( )与错误的肯定( )之间的平衡关系。
(四)PR曲线
精确率与反馈率(precision-recall)曲线,一般用于信息检索方面,体现了精确率与反馈率之间的关系,曲线成双曲形状。
(五)DET曲线
检测错误曲线(Detection error tradeoff Curve),此曲线划分错误率(=1-正确的肯定)与错误警告(例如错误的肯定),用于常规的偏差范围。它广泛的应用于口语识别的任务中[3]。
(六)AUC曲线
ROC曲线下方的面积曲线(The Area Under the ROC Curve,AUC),一般的讲,面积越大,模型越好。这里的面积可以理解为分类器将随意抽取的肯定类实例排在随意抽取的否定类实例之前的概率。ROC曲线在不同的决策点为系统提供一个好的观察度。
(七)NIST错误率
美国国家标准技术局(NIST)错误率是一些边界检测的插入与删除错误的总和。NIST错误率=[3]。
(八)SU(sentence-like unit)错误率
在DARPA EARS项目中,SU检测是不同于以上几种标准的。SU错误是每个SU中的一些分类错误的点(失败或错误的检测点),当用SU检测识别脚本(transcription)时,计分工具首先将会议与假设词排成一行,绘制假设的SU事件和会议SU事件,然后计算错误率。当识别输出词不能很好的排成一行时,队列将词错误率(WER)最小化[1]。
四、结束语
本文介绍了语音句子边界检测中常用的检测模型,以及常用的评价标准。目前,互联网迅猛发展,每天都有大量的广播与新闻等出现在网络上,这就迫使人们对语音句子边界检测的相关方面进行研究与应用。
参考文献:
[1]Yang Liu, Nitesh Chawla, Mary Harper, Elizabeth Shriberg, and Andreas Stolcke, "A Study in Machine Learning from Imbalanced Data for Sentence Boundary Detection in Speech ", Computer Speech and Language, V20(4), pp 468-494, 2006.
[2]Dustin Hillard, Mari Ostendorf, Andreas Stolcke, Yang Liu, and Elizabeth Shriberg, "Improving Automatic Sentence Boundary Detection with Confusion Networks",HLT/NAACL 2004.
[3]Yang Liu and Elizabeth Shriberg, "Comparing Evaluation Metrics for Sentence Boundary Detection",ICASSP, 2007.
[4]Yang Liu, Andreas Stolcke, Mary Harper, and Elizabeth Shriberg, "Comparing and Combining Generative and Posterior Probability Models: Some Advances in Sentence Boundary Detection in Speech", EMNLP 2004.
[5]Yang Liu, Elizabeth Shriberg, Andreas Stolcke, and Mary Harper, "Using Machine Learning to Cope with Imbalanced Classes in Natural Speech: Evidence from Sentence Boundary and Disfluency Detection", ICSLP 2004.
[6]Yang Liu,Andreas Stolcke, Elizabeth Shriberg, and Mary Harper, "Using Conditional Random Fields For Sentence Boundary Detection in Speech", ACL 2005.
关键词:边界检测;语音识别;模型;评价标准
中图分类号:TN912 文献标识码:A文章编号:1007-9599 (2010) 05-0000-02
Models and Evaluation Metrics for Sentence Boundary Detection in Speech
Hu Gaodie,Ma Jianfen
(Taiyuan Technology University,Computer and Software College030024,China)
Abstract:Speech,as a interdiscipline subject has very profound value of research and application.Sentence boundary detection in speech is an important step in speech recognition,it can make speech recognition more readable and enable us to understand language processing modules.This paper introduce common models and evaluation metrics for sentence boundary detection in speech.
Keywords:Boundary detection;Speech recognition;Models;Evaluation metrics
一、简介
近几年来,人们对语音识别技术产生了广泛兴趣。然而目前的语音识别系统主要以字或词为单位。在这些语音识别系统中,很少提到句子边界检测。但是句子边界检测确实可以使语音识别更具有可读性。语音边界检测是一个分类问题,我们可以根据每个词间的边界来决定它是否是语音句子边界。
二、常用的模型
(一)隐尔马可夫模型(Hidden Markov model,HMM)
最早的句子切分中就已经用到了HMM。设模型的状态对应词wi,结果标志ei。与状态相关的是词以及韵律特征fi。下图给出了SU检测问题的图式模型。
HMM中的观察似然度由决策树分类器来实现的,得到产生韵律特征的概率P(fi|ei,wi);用N元语言模型来计算转换概率:P(wiei|w1e1…wi-1ei-1)= P(wi|w1e1…wi-1ei-1)×P(ei|w1e1…wi-1ei-1ei)。在HMM中,前向-后向算法用来决定每个词间边界的最大后验概率: 。
HMM也是一个生成模型方法,这是因为它描述一个隐藏变量(句子边界)的随机过程,而这个过程产生观察数据[5]。
HMM方法有两缺陷:一是HMM的训练不能取正确标记后验概率的最大值。二是基于N元序列模型不能处理词序列的多重特征表示。
(二)最大熵后验概率模型
最大熵后验概率模型可以解决以上提到HMM的两大缺陷。设边界位置为i,最大熵模型可表示为以下形式:
(1)
其中 是一个标准化术语,ti表示文本信息,gk(ei,ti,fi)对应所定义的词、韵律的特征。最大熵的模型是由所找到的参数 来估计的,在训练数据中,不同的特征功能的期望值EP[gk(e’,w,f)]匹配经验平均值。同时,在训练集中的参数所选择的最大条件似然度∏iP(ei|w,f)很容易受到(1)式中所给的指数的制约。
(三)语言模型(The language model,LM)
对于SU边界检测而言,语言模型的目的是模访包含在词序列中的结构信息,我们用一个隐语言模型(Stolcke and Shriberg,1996)去模仿边界类型和词之间的联合分布。W表示一连串口语w1,w2,…wn,E表示词间事件的序列e1,e2,…en。隐藏语言模型描述词与事件之间的联合分布P(W,E)=P(w1,e1,w2,e2,…wn,en)[1]。
三、评价标准
句子边界检测有许多评价标准,以下描述了一些常用的评价标准。
(一)分类错误率(CER)
如果决策问题是一个基于词间边界点的分类任务,则分类错误率:
其中:fn(false negative)为错误的否定;
fp(false positive)为错误的肯定;
tp(true positive)为正确的肯定;
tn(true negative)为正确的否定。
后两种都为正确的分类结果。
(二)F-测量(F-measure)
F-测量主要用于信息检索[3]。
。其中 ; 。
(三)ROC曲线
受试者工作特征曲线(Receive Operating Characteristic Curve,ROC),一方面用于通信方面,是一种用于信号探测的术语,用来体现噪声信道击中率与错误报警之间的平衡。它体现了正确的肯定( )与错误的肯定( )之间的平衡关系。
(四)PR曲线
精确率与反馈率(precision-recall)曲线,一般用于信息检索方面,体现了精确率与反馈率之间的关系,曲线成双曲形状。
(五)DET曲线
检测错误曲线(Detection error tradeoff Curve),此曲线划分错误率(=1-正确的肯定)与错误警告(例如错误的肯定),用于常规的偏差范围。它广泛的应用于口语识别的任务中[3]。
(六)AUC曲线
ROC曲线下方的面积曲线(The Area Under the ROC Curve,AUC),一般的讲,面积越大,模型越好。这里的面积可以理解为分类器将随意抽取的肯定类实例排在随意抽取的否定类实例之前的概率。ROC曲线在不同的决策点为系统提供一个好的观察度。
(七)NIST错误率
美国国家标准技术局(NIST)错误率是一些边界检测的插入与删除错误的总和。NIST错误率=[3]。
(八)SU(sentence-like unit)错误率
在DARPA EARS项目中,SU检测是不同于以上几种标准的。SU错误是每个SU中的一些分类错误的点(失败或错误的检测点),当用SU检测识别脚本(transcription)时,计分工具首先将会议与假设词排成一行,绘制假设的SU事件和会议SU事件,然后计算错误率。当识别输出词不能很好的排成一行时,队列将词错误率(WER)最小化[1]。
四、结束语
本文介绍了语音句子边界检测中常用的检测模型,以及常用的评价标准。目前,互联网迅猛发展,每天都有大量的广播与新闻等出现在网络上,这就迫使人们对语音句子边界检测的相关方面进行研究与应用。
参考文献:
[1]Yang Liu, Nitesh Chawla, Mary Harper, Elizabeth Shriberg, and Andreas Stolcke, "A Study in Machine Learning from Imbalanced Data for Sentence Boundary Detection in Speech ", Computer Speech and Language, V20(4), pp 468-494, 2006.
[2]Dustin Hillard, Mari Ostendorf, Andreas Stolcke, Yang Liu, and Elizabeth Shriberg, "Improving Automatic Sentence Boundary Detection with Confusion Networks",HLT/NAACL 2004.
[3]Yang Liu and Elizabeth Shriberg, "Comparing Evaluation Metrics for Sentence Boundary Detection",ICASSP, 2007.
[4]Yang Liu, Andreas Stolcke, Mary Harper, and Elizabeth Shriberg, "Comparing and Combining Generative and Posterior Probability Models: Some Advances in Sentence Boundary Detection in Speech", EMNLP 2004.
[5]Yang Liu, Elizabeth Shriberg, Andreas Stolcke, and Mary Harper, "Using Machine Learning to Cope with Imbalanced Classes in Natural Speech: Evidence from Sentence Boundary and Disfluency Detection", ICSLP 2004.
[6]Yang Liu,Andreas Stolcke, Elizabeth Shriberg, and Mary Harper, "Using Conditional Random Fields For Sentence Boundary Detection in Speech", ACL 2005.