论文部分内容阅读
感知哈希是由多媒体数据集到感知摘要集的单向映射,它将具有相同感知内容的多媒体数字表示唯一地映射为一段数字摘要。感知哈希兼具对内容保持操作的鲁棒性和对内容篡改的区分性,并满足单向性、抗碰撞性等安全性要求。感知哈希已逐渐成为多媒体内容认证的重要技术,并且在基于内容的多媒体识别、检索中得到了广泛的应用。作为最典型、最普及的多媒体信息之一,音频信息的真实性和完整性关系到公民个人权益,媒体公信力乃至国家安全,音频感知哈希的研究具有很强的社会意义和理论价值。音乐与语音是最具有代表性的两类音频,它们在信号特点、编码方式、存储和传输信道等各方面截然不同,因此,必须针对音乐和语音的各自特点,研究不同的音频感知哈希算法。鉴于“音乐”这一名称的使用范围非常广泛,所以在信号处理研究中通常称之为宽带音频。而根据数字化过程中是否存在压缩编码,又可进一步分为原始宽带音频、压缩宽带音频、原始语音、压缩语音四类。感知哈希的研究目前仍处于起步阶段,缺乏通用的模型和性能分析方法,用以指导算法的设计与优化。当前具体算法的研究集中于原始宽带音频,对于压缩宽带音频和语音等上述三类典型信号,缺乏有针对性的感知哈希算法,不能满足实际应用的需求。本文针对上述问题展开研究,在充分研究音频感知哈希研究现状的基础上,给出了感知哈希的一般模型和通用性能评价指标;提出了可抵抗高强度转码操作的压缩宽带音频感知哈希算法、针对语音信号特点的原始语音感知哈希算法和压缩语音感知哈希算法。论文的主要研究工作和创新性如下:(1)提出了与具体算法无关的感知哈希一般模型和性能评价指标。本文基于人类认知原理,概括了感知哈希的定义和一般技术框架,给出了感知哈希各项性质的数学定义;将感知哈希算法抽象为离散马尔可夫信源,以信源熵率作为感知哈希的性能评价指标。该性能评价指标与具体算法无关,可用于算法的黑盒测试。并且,作为单位信息量测度的信源熵率,不受数据量大小的影响,可以联合评价算法的区分性、压缩性等性能。再次,熵率有明确的上下限值,可客观全面地评价算法的优劣。(2)提出了压缩宽带音频感知哈希算法。该算法以宽带音频压缩编解码的中间结果——改进离散余弦变换(Modified discrete cosine transform, MDCT)系数为输入,计算感知哈希值。实验结果表明,该算法在保持了良好区分性的同时,对高强度低码率音频压缩的鲁棒性明显优于现有算法,并且大大降低了计算与存储消耗,特别适用于无线通信等能源、计算、存储资源受限的场合。(3)提出了原始语音感知哈希算法。本文基于语音信号的数字模型,以线谱频率为基本感知特征,提出了原始语音感知哈希算法。实验结果表明,该算法实现了单词级的篡改检测精度,且具有良好的鲁棒性和安全性,可实现准确可靠的语音内容认证。同时,该算法不受语音编码标准的约束,可适用于各类语音通信系统。(4)提出了与编码标准相结合的语音感知哈希算法。为了满足移动电话、卫星通信等语音通信系统的低数据量、低延时要求,本文以G.729和MELP为低码率压缩语音标准的代表,研究了与之相结合的压缩语音感知哈希算法。算法以编解码的中间结果——线谱对作为基本感知特征,计算感知哈希值。实验结果表明,所提出的算法在确保较好的区分性和鲁棒性的前提下,具有极低的数据率和计算复杂度。