【摘 要】
:
暴力检测在音视频检测领域具有十分重要的地位,有着重大的研究意义。在安防领域快速检测出暴力行为,有利于减少人员伤害。在体育竞技方面检测出暴力行为有助于比赛公平性。但是随着互联网和流媒体的发展,人工检测无法满足速度的要求,这就需要一种更好的方法来完成暴力检测。当下大多数暴力检测主要在视频方面,检测种类单一,忽略了其他模态的暴力检测,导致暴力检测率不高,因此需要一种结合多种模态特征的暴力检测技术。首先,
论文部分内容阅读
暴力检测在音视频检测领域具有十分重要的地位,有着重大的研究意义。在安防领域快速检测出暴力行为,有利于减少人员伤害。在体育竞技方面检测出暴力行为有助于比赛公平性。但是随着互联网和流媒体的发展,人工检测无法满足速度的要求,这就需要一种更好的方法来完成暴力检测。当下大多数暴力检测主要在视频方面,检测种类单一,忽略了其他模态的暴力检测,导致暴力检测率不高,因此需要一种结合多种模态特征的暴力检测技术。首先,本文采用一种新的网络模型分别对音频和视频进行暴力检测。将视频和音频对齐并进行分帧,在视频模态方面,将一段时间的帧序列作为卷积神经网络(Convolutional Neural Network,CNN)的输入,提取到对应的特征。之后将对应的特征信息送入优化后的卷积长短时记忆网络(Convolutional Long Short-Term Memory,Conv LSTM)中,将一系列隐层状态使用softmax获得对应的权重,并按权重分配对应的隐层状态,最后通过全连接层得到分类的概率。在音频模态方面,先将对应的帧长的音频生成对应的语谱图,将对应的语谱图序列输入到同视频检测相同的网络模型中,最后获得分类的概率。其次,本文进行视觉和听觉双模态融合的暴力检测。分别使用两个CNNConv LSTM获得视觉模态和听觉模态的隐层输出,再对两个输出加权求和并通过tanh函数归一化到-1~1,再通过softmax获得每个隐层状态对应的权重并将对应权重分配到对应的隐层输出中,最后通过全连接层得到分类的概率。最后,本文采用注意力机制和双向网络进行优化。将多头自注意力机制用于提取到的特征中,并在不同子空间获得的投影进行连接,获得对应的融合特征并作为Conv LSTM的输入。针对Conv LSTM采用前向和反向结合进行优化,将两个张量进行连接作为隐层状态的输出,再利用提出的网络模型获得对应的结果。本文证明了提出的CNN-Conv LSTM权重网络架构以及通过音视频模态子网络进行特征融合与前人的研究相比,在对应的数据集上相应的检测指标有所提升,在Hockey Fight数据集上具有98%的准确率,高于当前最高的97%。并且使用双向网络和自注意力机制能够进一步优化。本文的意义在于提出一种更好的网络架构来提高暴力检测的准确率,并在日后实际应用中能够减少一定程度的误检。
其他文献
导弹作为现代战争中的重要远程打击手段以及战略威胁武器的载体之一,是我国国防力量构成中的重要组成部分。导弹装填是导弹生产制造过程中的重要环节,其任务是将导弹装配到弹筒中。如何精确地将弹筒与导弹轨道架对接是一个关键问题。目前国内的导弹装填工作主要还是通过手工方式对简单的工装机构进行调整,由人推动架车进行最终的对接。这对工人的技术水平有着极高的要求,特别对于大型导弹的装填,时间消耗很长。随着计算机视觉技
日常生活中的信息多以文档的形式呈现,挖掘文档中实体对之间的关系更具有实际意义。但是现有的关系抽取方法大多是句子级别的,难以捕捉文本中相隔较远的实体对之间的关系,为了弥补这一点,文档级关系抽取技术应运而生。本文拟从以下三个方面对文档级关系抽取技术展开研究:(1)基于序列的文档级关系抽取方法研究。基于序列的文档级关系抽取方法可以看作是句子级关系抽取方法的延伸,本文在该部分探究了两种具体模型,分别是利用
有效地对网络中海量的文本信息加以利用,方便人们的生活,一直是自然语言处理领域重要的研究内容。作为文本信息结构化的第一步,实体识别的结果直接影响下游任务的效果,这也使其不断迎来各种挑战。其中,细粒度的实体识别旨在不同上下文语境中对实体进行更准确、更丰富的描述,这一点在实体类别数量和类别层次上提出了更高的要求,逐渐成为目前实体识别领域中的研究热点。同时由于人工标注的代价高昂,现有的数据集大多基于远程监
人类学习知识往往遵循由简单到复杂,由基础到尖端的“先修”顺序。错误的学习顺序不仅会加大学习难度,而且容易因为不理解学科概念,“望文生义”,误入歧途。然而这样正确高效学习的顺序往往很难获得,需要领域专家在完成相关方向的探索后进行手工标注。这意味着得到一门学科的“先修”顺序,不仅需要大量的专家投入时间精力,而且往往在时效上难以辅助对前沿研究方向的探索。本文以从学科相关文本中自动化抽取先修关系为切入点,
海量数据上的高效用项集挖掘是一类非常重要的查询,高效用项集挖掘是频繁项集挖掘在项存在权重时的一种扩展,本文处理高效用项集挖掘的两类研究:高效用项集挖掘和top-k高效用项集挖掘。高效用项集挖掘给定效用阈值,返回效用不小于阈值的所有项集,而top-k高效用项集挖掘给定项集的个数k,返回效用最大的k个项集,这两类研究根据不同的条件而定,都能为用户提供相应的决策支持。首先,本文研究海量数据上的高效用项集
社会的发展和技术的进步使得人机交互系统逐渐成为技术研究的热点,其中对话系统是一个重要的方面。而任务型对话又是对话系统中应用面最广的技术之一。随着对话系统应用面的推广,单个领域的对话系统已经不能满足实际需求了,多领域的对话系统及其相关技术的研究逐渐成为当前研究和应用的重点,而在此基础之上的模型跨语言能力的迁移泛化又是当前国际化不断推进带来的新的具有实际应用场景的研究方向。本文首先对现有的公开任务型对
随着自然语言处理技术的发展,自然语言处理的应用也越来越广泛,比如在聊天机器人、智能搜索、智能推荐等应用中,都运用上了自然语言处理的技术。此外,国家之间的交流也越来越频繁,人们对于各种语言的深层语义理解的需求也越来越大。语义依存图分析任务便是针对该需求所提出的任务之一。语义依存图以图的形式将语义信息进行了有序地组合,通过依存弧和语义标签定义了若干对语义单元,从而可以直接回答何时(when)、何地(w