基于内容的连续音频流分割与标注技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:minghao1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自动语音识别系统的性能已经得到了极大的提高,它生成的高质量识别文本可以满足很多任务的要求。随着多媒体音频信息的快速增长,如何处理真实环境下的连续音频流信号,如广播语音和电话语音,变得越来越重要。连续音频流经过一系列的分割、分类标注和聚类等预处理过程,才可以输入到传统的语音识别系统中进行识别。另一方面,使识别文本更可读已经成为语音识别领域研究的一个热点。从音频流中提取有用的元数据信息,对于读者更好理解识别文本或者进行音频检索等应用是十分必要的。基于内容的连续音频流分割和标注技术正是满足这些要求的极为重要的音频处理技术。本文根据实际需求,在深入分析连续音频处理的特点和面临的主要问题的基础上,针对音频流的分割、分类和聚类以及系统框架等问题进行了探讨。主要研究内容及结果如下:   (1)在音频数据分割方面,本文提出一种两层次的音频分割算法。将分割过程分为区域和边界两个层次。区域层次检测包含候选声学特征变化点的潜在区域。区域检测较之传统的变化点检测更为鲁棒,可以在一定程度上克服窗长变化的影响,同时可以采用较大的窗移来提高检测速度。由于相邻检测窗之间相互交叠,真实变化点可以被多个检测区域检测,从而确保高的检出率。在边界层次,本文作者在潜在区域内寻找真正的变化点,两步的边界检测过程保证理想的准确率。为了提高速度,本文作者采用T2统计值搜索候选变化点,而用贝叶斯信息准则(BIC)进行确认。   (2)在音频类型标注方面,本文对基于支持向量机(SVM)的语音/非语音分类方法中的音频特征选择和分类问题进行了深入的探讨。在基于决策树的多类别分类框架下,为不同的SVM分类器选择有效的音频特征,从而在多类别分类中获得优良的性能。此外,为了提高SVM模型的训练速度,本文提出一种基于回归树的有效样本选择算法。实验结果表明,在保证分类正确率基本保持不变的情况下,支持向量的个数和训练时间都会显著降低。   (3)在说话人信息标注方面,本文提出一种有效的无监督的说话人聚类算法。提出以候选状态为基础实现说话人聚类过程的停止准则,它的优点在于无需针对具体任务调整参数,而直接应用到实际任务中,并且得到合理的聚类数。为了克服说话人分割的结果会直接影响到聚类结果的缺点,本文对循环的说话人切分聚类算法进行了深入的研究。   (4)在分割、分类和聚类问题得到合理解决的前提下,本文提出基于内容的音频流分割与标注系统的可伸缩通用框架,将整个系统分为语音检测、说话人变化点检测和说话人聚类三个阶段。在此基础上,研究了约束条件下的系统应用问题和广播语音的语音识别预处理系统应用的问题。
其他文献
利用图像拼接技术自动创建全景图像是摄影测量、计算机视觉、图像处理、以及计算机图形学等领域中一个比较活跃的研究方向。图像拼接把多幅部分重叠的图像合成为一幅大幅面的
城市交通干线承担了城市的主要交通流量。制定科学合理的干线交通控制策略,对缓解城市交通拥堵、提高通行效率具有重要意义。传统的干线交通控制系统采用人工作图或计算方法,不
灰系统理论是研究信息不完备系统的一种有效方法。论文对当前国内外故障智能诊断技术的研究现状以及灰系统理论进行了综合分析,对主要故障智能诊断技术如基于神经网络、基于模
近年来,现场总线技术凭借其良好的开放型,可扩展性及高性能,低成本等优点,在我国自动化控制领域得到了广泛的应用,但由于我国对现场总线的研究起步较晚,核心技术基本为国外公司所掌
高频无极灯是一种新型绿色电光源,因泡体内无电极而得名。高频无极灯具有很多优势,譬如高光效、长寿命、高显色性、高色温,因此被应用于公共照明和道路照明。但是由于高频无极灯高频发生器易受环境条件如温湿度影响,在环境恶劣的地方的广泛应用受到限制,所以对高频无极灯高频发生器工作性能的研究很有必要。高频无极灯高频发生器包括四个模块,EMI滤波电路和整流器模块,有源功率因数校正模块和高频谐振逆变电路模块。高频逆
我国是一个纺织服装的大国,纺织服装行业是我国的传统优势产业。纺织服装原料纺纱的着色主要通过印染工艺来完成,因此纺织印染工艺是影响生产和产品质量的重要因素,而影响印染质
无缝钢管生产线项目系天津无缝钢管厂二套轧管机组工程后的又一条无缝钢管生产线,主要以三辊ASSEL轧管机为主,用于中厚壁管的轧制,适应小批量、多品种、合金含量较高的高附加值
节点定位问题是无线传感器网络进行目标识别、监控、跟踪等众多应用的前提。随着无线传感器网络研究的深入,其应用愈加广泛,固定的网络结构已无法满足新增应用的需要,移动节
精神分裂症是一种以功能整合不良为特征的重性精神疾病。脑功能影像学技术的发展为探究这一疾病的病理生理机制提供了新的契机。静息状态脑功能磁共振成像因其无创性、非侵入
交通信息采集是ITS至关重要的基础环节,而运动车辆车型智能识别是其中的核心技术之一。在现有的车型识别技术中,感应线圈检测和视频检测是最具研究价值和应用前景的检测方式。