基于音频语谱图像识别的广告检索技术

来源 :第十一届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户:weishuange0l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着我国广播电视事业的快速发展,对广播电视进行广告监测的重要性越来越突出。本文提出了一种基于音频语谱图像识别的广告检索方法,该方法把每个广告片段的音频转换成语谱图像,并通过boosting训练算法,从中提取可区分的、适合索引的特征以训练分类器。检索时,通过特征对齐,采用基于EM的迭代方法识别最匹配的广告。 实验结果表明,该方法可以快速准确地从广播电视中检索到广告,而且具有很好的鲁棒性,基于该方法开发的广播 电视广告监测系统已经得到了实地应用。
其他文献
现有的计算机辅助语言学习系统(Computer Assisted Language Learning,CALL)在得到GOP分数之后,对所有的音素都使用相同的映射函数计算相应的句子得分,忽略了不同音素发音之间的差异性。本文提出了一种使用专家评分语音对GOP分数归一化处理的新方法“概率分布映射算法” (probability distribution mapping algorithm,PDMA)。
平行网页文本中除了互为对照的内容,还存在一些无关的噪声,因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制。通过引入互译词典或同类词典的方法可以提高句对齐质量,但是双语词典的规模是有限的,不能覆盖所有对应的词汇。  本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐,在向量空间模型中,网页文本中的句子为一维空间中的向量,选取实词作为特征项,利用CHI统计量计算词汇
本文对基于隐马尔柯夫模型(Hidden Markov Model, HMM)的单元挑选语音合成方法进行改进。针对原有方法单元预选过程中存在的线性搜索效率低、无法考虑相邻音素备选单元间连接性的问题,设计实现了基于决策树的音素/不定长单元预选方法;针对原有方法声学模型训练过程中方差参数估计受音库覆盖均衡性影响过大的问题,提出了绑定方差的声学模型训练策略。实验结果表明,以上两方面技术改进可以有效提升合成
本文利用“鄂温克语语音声学参数数据库”,对鄂温克语四种不同结构的486个双音节词的元音音长、音高和音强等进行统计分析的基础上,探讨了鄂温克语双音节词的韵律节奏模式与词重音之间的关系问题。
在人类的语言交流中,语言事件,如各个音段,声调,韵律边界等都是信息传递的载体,所有的这些语言事件 都为人类的语言交流起着不可或缺的作用。一直以来,人们通过听觉感知,信息熵等一些方法来研究各个语言事件在交流中所起到的作用。本文提出用互信息的功能负载的方法来度量每个语言事件所包含的信息量。主要以韵律的层级结构为研究对象,分析了不同韵律层级的作用,并与以前音段的信息量作了初步的对比,结果表明边界信息 在
人们在学习外语时无可避免地会受到母语的影响。汉语和日语在语音节奏上存在着较大差异,这种差异会影响 日本学生的汉语发音学习。本研究的主要目的旨在建立一种针对节奏的声学参数评判体系,来衡量日本留学生的汉语节奏受日语的影响程度。为此,我们收集了不同母语背景的三种发音数据:日本学生的中文、日文发音数据,以及中国学生的中文发音数据。从发音数据中我们提取了包括%V、ΔC、ΔV、rPVI、nPVI、短时平均能量
本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中,发音特征(如嘴唇、舌体和声门/软腭的状态)之间允许在一定约束范围内异步,以更好地模拟协同发音现象,为人类真实发音过程建模。在模型训练中,以42维感知线性预测(PLP)特征作为音频特征,视频特征为嘴部图像的80维AAM特征。在听视觉数据库上训练好模型参数后,对于
帧规整对数后验概率是目前公认最有效的发音质量的度量。本文证明了该度量反映了当前发音对应的声学模型 与概率空间中声学模型的混淆程度,使其在评分任务上存在着严重的缺陷。因此提出了可训练的音素相关的后验概率变换;并研究了线性和非线性sigmoid变换,同时给出线性变换的显式全局最优解和非线性变换的梯度下降解法。在全国采集的普通话水平测试现场考试的篇章朗读题型上进行实验。实验结果表明:当概率空间包含所有音
压缩感知(compressive sensing,CS)是一种基于信号稀疏性的采样方法,可以有效提取信号中所包含的信 息。本文提出了一种基于CS过程的语音增强新算法。算法利用语音在离散余弦变换(discrete cosine transform,DCT)域下的稀疏性,采用Hadamard矩阵对带噪语音进行压缩测量,通过改进的正交匹配跟踪(orthogonal matching pursuit,OM
传统基于线性预测(LP)声码器采用简单的脉冲加白噪声激励模型,合成语音有严重的机器声。为了提高传统线 性预测声码器的合成音质,本文对逆滤波后的残差信号进行建模。浊音段采用两段激励模型,通过最大浊音频率将频域划分成两部分:一组正弦信号构成的低频段和高斯白噪声高通滤波后构成的高频段。清音段采用传统的高斯白噪声激励模型。通过与传统脉冲激励模型和LF激励模型的对比,基于逆滤波的谐波噪声激励模型在合成音质上