【摘 要】
:
随着音频编辑软件的盛行,人们为了不法目的可以对音频文件进行恶意篡改,为音频的真实性检测带来严峻挑战。其中,复制粘贴篡改是音频语义篡改中最常见的篡改方式,由于其篡改片段的属性与原始音频文件极为匹配,检测难度大,已成为多媒体取证领域研究的热点之一。本文面向数字音频展开复制粘贴篡改检测与定位研究,主要工作如下:(1)提出了一种基于常数Q倒谱系数(Constant Q Cepstral Coefficie
论文部分内容阅读
随着音频编辑软件的盛行,人们为了不法目的可以对音频文件进行恶意篡改,为音频的真实性检测带来严峻挑战。其中,复制粘贴篡改是音频语义篡改中最常见的篡改方式,由于其篡改片段的属性与原始音频文件极为匹配,检测难度大,已成为多媒体取证领域研究的热点之一。本文面向数字音频展开复制粘贴篡改检测与定位研究,主要工作如下:(1)提出了一种基于常数Q倒谱系数(Constant Q Cepstral Coefficients,CQCC)声学特征和滑动窗口机制的音频复制粘贴篡改检测和定位方法。首先基于子带谱熵的单参数双门限端点检测方法将音频分割成静音段和有声段,并基于滑动窗口机制进一步将有声段分割成含重叠部分的有声小段;其次基于CQCC提取每个有声小段的声学特征;然后,基于皮尔逊相关系数,分别面向同一个有声段和不同有声段提出了两个小段的相似性计算方法,以确定篡改位置。最后,通过设计更具现实意义的中文和英文复制粘贴篡改数据集,验证了所提方法具有更小的定位误差和更好的检测性能。(2)提出了一种基于常数Q光谱草图(Constant Q Spectral Sketches,CQSS)和遗传算法的鲁棒的音频复制粘贴篡改检测和定位方法。首先通过对平方级的常数Q变换的对数取均值,提取每条音频的CQSS特征,并分析了CQSS特征的有效性;其次,通过设计编码方式、遗传算子和适应度函数,提出基于遗传算法的CQSS优化方法,以去除CQSS特征中的冗余和干扰信息,进一步提高检测性能。实验结果表明,所提方法不仅具有更有效的复制粘贴篡改检测和定位性能,而且对信号处理攻击具有很好的鲁棒性。
其他文献
随着智能化信息时代的到来,校园学生对于获取信息的高效性也越来越重视。目前高校学生获取各类信息需要在不同的App和平台上进行,这对高校学生获取信息造成一定的局限性。在信息爆炸的时代,快速找到自己有用的信息对提高生活品质也显得必不可少。为此,需要搭建基于个性化推荐的、集失物招领、交友、经验交流、买卖交易为一体的校园学生互动管理平台。本平台采用个性化的推荐算法,为每一位学生提供个性化的服务,从而让用户快
卷积神经网络在计算机视觉领域得到了大量的应用,尤其是基于卷积神经网络的目标检测方法目前在学术界和工业界都受到了广泛关注。然而,由于卷积神经网络具有较高的计算复杂度,目前目标检测方法通常依靠大型服务器如GPU(Graphics Processing Unit)进行运算。但是,当前GPU平台存在功耗高、体积大以及成本昂贵等缺陷,使得基于卷积神经网络的目标检测方法难以应用于移动机器人、无人机等轻量化平台
如何基于给定的输入文本描述生成与之相一致的图像是一个十分具有挑战性的问题。目前的方法大都是首先合成一张初始模糊的图像,然后提炼这张初始图像去生成高质量的图像。然而,现在大多数的方法都很难合成与输入文本描述相一致的初始图像。所以如何在初始图像不好的情况下去合成高质量的图像至关重要。在本篇论文中,为了解决这个问题,基于生成对抗网络(Generative Adversarial Networks)做了以
面部表情是最直接、有效的情感表达方式,与之相关的人脸表情识别技术也被广泛应用于人机交互、智慧医疗等多个领域。人脸表情的表示模型分为离散分类和连续维度,离散分类模型把面部表情分为六种基本表情,而连续维度模型通过建立连续的情感空间来描述复杂微妙且连续变化的表情。自然环境下的人脸复杂多变,且连续维度模型对表情进行了更加细致的划分。本文针对自然环境下的静态图片和动态视频场景下的连续维度模型的人脸表情识别问
情感估计是人机交互中至关重要的一环,让机器准确地理解用户情感可以建立起更加和谐的人机环境。由于面部表情是人类表达情感的主要方式,因此,基于人脸视频的情感估计成为近年来的研究热点。情感主要有离散分类和连续维度两种模型表示。其中,基于连续维度的情感模型将情感状态映射到一个连续的维度空间中,相较于离散分类的情感模型,它可以描述出更复杂、微妙的情感。因此,本文致力于探究自然环境下的人脸视频维度情感估计,具
随着当今社会的发展,对室内定位的需求日益增加,由于GPS等室外定位技术在室内定位的应用受到限制,目前室内多采用射频识别(Radio Frequency Identification,RFID)、红外线、超声波、Wi Fi、超宽带(Ultra-Wideband,UWB)等定位技术,其中UWB由于时间分辨率高、穿透性强、抗多径能力强等特点,使得其更适用于室内定位,而其他定位技术大都由于易受环境影响、定
在科技飞速发展的时代,科技文献数量增长的速度越来越快,但是科技文献一般篇幅较长,无法快速掌握核心内容,因此,急需一种科技文献关键短语提取方法。关键短语提取是指从一段文字中标注出能够概括该段文本核心意思的短语或词语。现有的大多数科技文献关键短语提取方法都基于词频信息,并没有包含足够的语义信息;很多方法属于单词级别,没有利用单词之间产生的短语信息,在提取多个单词的较长关键短语上效果不佳。针对上述问题,
关系抽取任务旨在从半结构化或非结构化文本中获取结构化的事实知识三元组,为知识图谱的构建提供数据支持。目前,常用的抽取方法主要是基于特征模式的关系抽取方法与基于神经网络的关系抽取方法。基于特征模式的关系抽取方法依靠手工设计的特征模板对半结构化或非结构化文本数据进行模式匹配而后提取出符合特定模式的关系知识,而基于神经网络的关系抽取方法则依赖于神经网络结构自动提取文本中与事实关系相关的上下文特征以提取关
多模态数据是指同一个事物可以有多种表现形式,包括文本、图像、音频等等。同一类的多模态数据虽然表达的事物相同,但它们之间的表达形式完全不同,存在着巨大的语义鸿沟。多模态数据随着信息技术的飞速发展不断增长,在丰富人们的信息生活的同时也带来了很多问题。如何在海量且无序的多模态数据中搜索需要的信息、识别特定的数据等问题都亟待解决。多模态研究通过一定的技术手段分析和研究不同模态之间的内部联系跨越它们之间的语
目前,生物特征识别技术已经大规模应用,这对生物特征识别技术的安全性、准确性、实时性和交互性都提出了很高的要求。在基于图像或者视频的生物特征识别技术中,感兴趣区域(ROI)的准确定位和提取非常重要和关键。掌纹识别已经成为一个新兴的生物特征识别技术,受到广泛的关注,目前,掌纹识别的ROI提取主要是针对静态图像进行提取,提取算法缺乏交互性,也难以从动态视频中有效提取ROI,为解决这个问题,本文开展了深入