【摘 要】
:
音频分割是指根据说话人特征、环境、信道条件,将音频流“自动”切分成若干同质区域的方法。由于其在音频检索、语音识别等应用中具有潜在价值,近年来受到了广泛关注。在各种音
论文部分内容阅读
音频分割是指根据说话人特征、环境、信道条件,将音频流“自动”切分成若干同质区域的方法。由于其在音频检索、语音识别等应用中具有潜在价值,近年来受到了广泛关注。在各种音频分割方法中,由Chen等人提出的基于BIC的音频分割方法使用最为普遍,因为它具有很好的分割精度,但过大的计算量限制了其分割速度,无法满足实际需求。 本文提出了一种基于BIC的高效的分阶段音频分割方法。不同于传统的“基于变长窗检测”的BIC方法和P. Delacourt等人提出的DISTBIC方法,该方法首先使用基于统计均值欧式距离mEdist选出候选音频分割点,过程中包含对于局部峰值选取和显著性检测,然后使用BIC方法对于候选分割点进行确认,最后使用基于能量的检测方法以减少对于短时静音段的插入错误。实验结果表明该方法不仅在很大程度上提高了整体音频分割速度,较之传统的BIC方法提高了400倍,而且使得删除错误率MDR降低了19.2%,当然插入错误率FAR略有提高,上升了3.8%。 最后比较了MFCC特征和LPCC特征在不同应用场合中对于音频分割效果的影响,不仅验证了本文所提出的音频分割方法具有一定通用性,而且发现较之MFCC特征,LPCC特征在音频分割应用中具有更好的表现。
其他文献
由于事件本体(Event Ontology)所表示的知识更接近于人类对知识的理解与分析过程,使得事件本体越来越受到学术界的重视。同时,时间和空间是构成事件的基本元素,能够更加准确
在海量数据、语义数据、数据服务的互联网发展背景下,数据网格的应用出现了诸多与以往不一样的新特征。DartGrid是一个面向异质异构的数据语义集成解决方法,而中医药共享统一
三维场景漫游是指,用户通过某些设备,与屏幕上显示的真实或虚构的三维场景环境进行交互操作。这种操作能实现在虚拟环境里模拟人在真实场景中的漫游。场景漫游作为虚拟现实领
近年来,Internet迅猛发展,并逐渐成为一种面向数据、语音、视频和多媒体应用等多种业务的综合载体。而各种新的多媒体业务的出现又对网络的服务质量提出了新的要求。但是,传
随着高速公路网建设的日臻完善,利用较为完备的视频监控系统对路面状况进行实时监控成为提高道路运营质量的一种重要手段。基于视频图像的目标检测和数据采集分析为更大程度
在低辐射航天环境下,由于空间粒子辐射等因素的影响,除引发处理器发生瞬时故障外,还会引起频发的、更加致命的间歇故障。传统单核处理器无法采用纯软件的手段实现容错,而多核
多源图像融合技术是将来自同一场景的不同图像传感器的多幅图像进行综合处理,得到一幅融合后的图像。与单一图像传感器所获得的图像相比,融合后的图像对场景提供更全面、精准、
基于位置的服务极大地方便了我们的生活,寻找附近的好友、推荐附近的热门餐馆等应用无一不包含了基于位置的服务。用户在享受基于位置服务的同时,会不经意地泄露敏感的位置隐
随着互联网的快速发展,当前每天都将产生海量的数据。为了存储这些数据,独立磁盘冗余阵列(RAID)利用多个磁盘提升系统容量和读写性能。在大规模RAID系统中,由于磁盘数较多,磁
由于其灵活性和可扩展性,XML成为越来越多互联网上数据的表示标准。在一类应用中,XML数据表现为源源不断到来的数据片断,在这类应用中的XML数据称为XML数据流。XML数据流的应