基于张量模型的暴力音频片段检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:varylife
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们越来越易于在网络上分享多媒体,则不可避免地会有一些暴力多媒体信息流入网络,对于未成年等特定人群来说,这些信息会对他们的行为习惯产生严重的负面影响。仅依靠人工审核的效率十分非常低下,需要一种方法可以自动检测出暴力内容并阻止其传播。听觉是人们获取多媒体信息的重要途径,现有的暴力多媒体检测研究中,听觉通道常常作为视听觉通道融合的辅助途径而没有得到人们的重视,对音频特征的处理比较简单,没有充分利用特征信息,识别效果受到了一定的限制,这也会进一步影响视频的检测效果,因此本文主要研究了音频通道的多媒体暴力内容的检测方法。本文主要研究了基于张量模型的暴力音频的检测方法。首先选出对暴力声响具有较强区分度的特征集,以一个类别为单位构造出该类别的特征张量。然后,对每一个类别的特征张量进行分解、计算,构造出一个该类别的投影子空间,这个子空间可以把样本的原始特征矩阵投影为一个低维特征向量,这样,就可以将高维特征变换为低维信息且保留了内在结构信息。最后,针对所提取的特征提出了一种基于最小风险贝叶斯准则的暴力音频分类方法,先对不同类别的音频特征分别建立高斯模型,再根据最小风险贝叶斯准则得到最后的预测类别。本文所使用的数据集来自Media Eval 2013 Workshop所提供的数据库中的部分音频,实验结果表明,与统计值特征相比,使用张量模型的特征的召回率有很大提高,精确度相对较低,但综合来看F1有了一定的提高。为了进一步提高识别效果,弥补精确度较低的缺点,提出了一种对长短时特征信息融合的方法,实验结果在精确度上有很大提高,且与传统方法相比,召回率,精确度和F1均有一定的提高。
其他文献
随着信息智能化进程不断推进,人工智能已经广泛应用于各个方面。尤其在医疗诊断领域,越来越多的生理指标和疾病类型,加大了医生诊断疾病的难度,为了解决这个问题,许多研究学
随着当今社会信息化程度的不断提高,企业应用往往需要从大量异构、分布、自治的多数据源中提取数据,如何屏蔽底层异构数据源,将异构数据映射为统一的数据模型,以及如何快捷有
伴随无线通信技术的快速发展,人们希望能够通过无线方式接入互联网络,最近几年,越来越多的人群开始在日常的工作和生活中使用PDA等移动手持设备。对于企业用户来说,手持设备
本文针对阶段性事件驱动架构(SEDA),设计出一套自适应性能控制机制。过去几年因特网爆炸性的增长引起了大量新的网络服务在全世界范围内快速普及,网络服务已经成为一种重要的
随着互联网的蓬勃发展,互联网越来越成为民众表达自己利益诉求、发泄自己情感以及跟其他民众进行思维讨论碰撞的一个新平台。但由于网民素质参差不齐,热点事件到底是确有其事
计算机软件的普遍应用带给人们越来越多的便捷,并日益影响人们的日常生活,但计算机软件中存在大量的错误及漏洞,隐藏着巨大的风险。因此,无论是科研机构还是企业,都在努力研
VoIP是下一代网络中一个极其重要的应用,作为构建VoIP电话系统信令协议之一的SIP协议,以其突出的简单、灵活、分布式控制和易于扩展等优点赢得了业界的青睐,尤其是在3G即决定
随着互联网(Internet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在Web信息呈现几何级数增长的情况下,如
VPN技术利用Internet等公共网络资源构建虚拟专用网络,在共享网络中通过加密隧道等技术来保证用户数据的安全性,是解决网络传输中端到端连接安全问题的一条有效途径。随着VPN
JXTA作为开发P2P应用的基础平台已经在P2P应用的各个领域得到广泛的应用,但是针对P2P流媒体系统的开发还很少。当前很多处于实用阶段的P2P流媒体直播系统都使用自己的P2P底层