Video Captioning人工智能技术在电视媒体中的应用

来源 :卫星电视与宽带多媒体 | 被引量 : 0次 | 上传用户：wxxsdc

【摘要】

：

【作者】

：

梁霄

【出处】

：

卫星电视与宽带多媒体

【发表日期】

：

2021年6期

【关键词】

：

Video Captioning 电视节目深度学习人工智能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　【摘要】自二十世纪九十年代以来，我国电视媒体技术飞速发展。伴随着电视节目的种类及数量越来越多，为视频节目添加内容描述的工作日趋繁琐;另一方面，网络及自媒体的快速发展也伴随着媒体资源数量的急剧膨胀，电视节目如何快速，准确地从这些媒体资源中选出需要的材料也成为当今一大问题。本文探究了在当前人工智能大环境下，Video Captioning技术如何应用于电视节目中，并提出了端到端的系统解决方案，实现了大规模媒体内容的高质量，高效率的文字描述。
　　【关键词】Video Captioning;电视节目;深度学习;人工智能
　　中图分类号：TN92 文献标识码：A DOI：10.12246/j.issn.1673-0348.2021.06.042
　　电视节目的制作要先选择合适的素材，经过剪辑等处理之后，最后添加上字幕。随着电视技术的发展，电视节目的种类与数量越来越多，如何高效的制作出一期电视节目逐渐成为一个重要的问题。制作电视节目的困难有多个方面，首先是素材的选取问题。互联网作为一种新的传播媒介，拥有着传统媒介所没有的快捷和方便，网络上的视频资源数量飞速增长，而这些视频都缺少一定的文字描述，如果对每个视频都进行查看会浪费大量的时间并且不现实，所以需要一种可以高效的选择合适的视频素材的方法。其次是字幕的添加问题。电视节目数量的增加导致了添加字幕的工作量的增加，如果使用人工的方法手动添加字幕，这会耗费大量的人力，能不能找到一种方法可以自动的为电视节目添加字幕。
　　Video Captioning作为人工智能领域中的新兴技术，可以很好地解决上述遇到的问题。该技术能够为每个网络视频添加或长或短的描述，方便视频的检索，节省了选材的时间，又可以自动为制作好的电视节目添加字幕，省去了人工添加字幕的工作。总体来说，Video Captioning可以节省电视节目制作需要的时间和人力资源，提高电视节目制作的效率。
　　1. 技术简介
　　随着计算机视觉领域和自然语言处理领域的不断发展，人们开始考虑如何通过一段话描述视频的内容，这样可以为视频的检索提供便利，也方便了视觉障碍者理解视频内容。相比于图像只包含静态的空间信息，视频除了空间信息还包括时序信息以及声音信息等。通过Video Captioning生成描述时需要提取更多的特征，这对生成一段准确的描述来说是一个比较大的挑战。
　　在实现方法上，Video Captioning主要有三种基本方法。基于模板的方法：先给定句子模板，然后从视频中提取相应的信息填入句子模板中;基于检索的方法：先人工给定许多句子构建句子库，然后根据视频特征从句子库中选择最为相似的句子;前者生成的描述过于生硬，后者适用的环境较为有限。为了能有广泛的通用性又能生成通顺的描述，出现了基于编码的方法。这种方法通过学习视觉内容与句子在空间上的概率分布来生成描述，而概率分布的学习主要通过神经网络完成。神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
　　目前主流的Video captioning技术通常采用的是编码器-解码器结构，即先将视频中特定帧的RGB特征输入编码器中，得到视频特征向量。然后将该特征向量输入到解码器中，根据该特征向量生成相应的自然语言的描述。下面主要讨论基于编码的方法。
　　Video Captioning主要有两个分支，一种是传统的Video Captioning，用一句话描述一段短视频的内容。这些视频通常长度比较短，10秒左右甚至更短。另一种是密集事件描述（Dense Event Caption，DEC），为一段较长的视频添加一段话的描述。DEC通常是把一段长视频分为多个事件，然后为每个事件单独添加描述，所以如何划分事件显得非常重要。
　　2. 技术实现
　　由于视频帧之间具有时间连续性，普通的二维卷积不能够充分表达此特性，因此目前编码器主要采用的是三维卷积网络：组合相邻的几个帧形成三维输入向量，并进行卷积操作。解码器主要是使用门控循环单元网络（GRU），相比于长短期记忆网络（LSTM）有输入门、遗忘门和输出门三个门控函数，GRU网络只有重置门和更新门两个门控函数，因此参数更少，在其性能接近LSTM网络的同时，减少了计算量和训练时间。
　　2.1 短视频描述
　　2015年，Subhashini Venugopalan等人介绍了一种简单的Video Captioning模型。如图1，考虑到视频的时序特征，他们首先使用卷积神经网络（CNN）提取视频中每帧的信息，然后利用LSTM依次输入提取的特征，LSTM的隐含层表示视频本身，最后生成描述。该工作存在很多不足，时序特征表示比较简单，提取的视频特征比较少，未考虑不同特征之间的差异性等等。关于网络性能的改进，2019年的CVPR会议上就出现了许多新颖的想法，主要分为对编码器或者解码器的改进两个方向。例如对视频提取双向特征来提升编码器对视频特征提取的效果;优化训练集或者参考其他相關视频的特征向量来提升解码器的性能。
　　关于编码器的改进，Junchao Zhang等人提出使用双向时序图来提取视频特征。他们首先找到视频中的主要物体，然后对该物体提取双向视频特征，最后将原视频特征与主要物体的视频特征送入GRU网络生成描述。使用双向时序图的好处主要有两点：（1）通过正向和反向两种不同的方法提取的视频特征会更全面，会包含更丰富的视频信息。（2）只使用正向或反向的方法来提取视频特征往往不能获得好的主要物体的时序轨迹，因为并不是所有的主要物体出现在整个视频中。所以使用双向时序图来提取视频特征会更完整的体现主要物体的时间轨迹，优化整个网络的性能。　　关于解码器的改进，Luowei Zhou等人通过改良训练集的方法来消除幻觉现象，即生成的描述中会出现视频中不存在的物体，这是因为这些物体在训练时出现在了相似的上下文中。该工作首先把ActivityNet数据集中的视频分为几个视频段，再从每个视频段中均匀的抽取10帧。在提取的10帧中找出与描述语句中的名词相对应的区域使用方框标记出来并添加相应的注释，每一种名词在一个视频段中仅标记一次，并选择10帧中最明显的作为标记。当训练时，会根据视频帧中标注来生成描述，训练网络对物体区域的筛选能力。实验结果虽然几乎消除了幻觉现象，但是由于网络结构本身相比之前的网络并没有太大改进，导致整个网络的性能并不突出。
　　Wenjie Pei等人通过添加相似视频的上下文特征向量来改善解码器的性能。之前的方法生成描述时都是基于当前的视频，而一个单词也可能会在其他的训练的视频中出现，所以他们认为在生成描述时应该把与生成单词有关的视频上下文向量都考虑进去，于是构建了一个记忆结构去记录与每个单词有关的视频特征。当生成描述时不仅考虑本视频的上下文向量，也会考虑相关视频的上下文向量，使生成的描述更准确。
　　2.2 长视频描述
　　长视频相比于短视频会包含更多的事件，很难使用一句话描述整个视频的信息，所以长视频的Video Captioning网络结构相比于短视频增加了一个提取事件候选框的部分，首先使用三维卷积网络提取视频特征，然后提取出各个事件对应的视频特征范围，然后像处理短视频一样对每个事件生成描述。
　　事件的提取主要是使用Single-Stream Temporal action proposals （SST），这是对之前Deep Action Proposals（DAPs）方法的改进。无论是DAPs还是SST，相比于滑动窗口法，优点都是只需要输入一次视频就可以提取出候选框。DAPs其实是改良版的滑动窗口法，通过聚类的方法获得所有可能的滑动窗口的长度，所以只需要输入一次视频，但是这种方法的运算速度太慢，所以就出现了SST。SST方法先将整个视频均匀分为许多小段，然后把每个视频段作为事件终点，去寻找相应的起点作为一个候选框，最后对所有提取的候选框使用非最大值抑制方法去除高度重合的候选框，删选出合适的候选框。
　　2017年CVPR会议上，Ranjay Krishna等人提出了第一个长视频描述网络模型。如图2，该工作首先通过C3D网络提取视频特征，然后把视频特征输入到DAPs中，生成候选框。为了生成不同长度和时间可能重叠的候选框，把视频特征以不同的步长输入到DAPs中。再对每个候选框生成对应的描述，生成描述时不仅用到了当前的事件特征，把之前的事件特征向量加权得到前文特征，把之后的事件特征向量加权得到后文特征，将3种特征结合用于生成描述。该网络结构比较简单，因此效果并不理想，但开辟了Dense Captioning领域的先河。长视频描述的网络结构主要分为两部分，一部分提取事件候选框，另一部分生成相应的描述，将每句描述串联起来作为最终的描述。因此改良网络性能也主要是通过优化事件候选框的提取以及最终描述的生成来实现。
　　2019年CVPR会议上的Dense Captioning网络结构相比之前加入了许多新的技术到编解码器中来优化网络性能，但整体的网络结构并没有改变。
　　Jonghwan Mun等人通过优化事件候选框的提取过程来改良整个网络的性能。之前的方法只是单纯的把视频划分为多个事件，没有考虑事件之间的关联性。实际在生成描述时，不仅要考虑到和事件的关联性，也要考虑到生成的描述之间的关联性。为了解决这个问题，他们先将提取的事件候选框按照开始时间排序，在生成描述时，会根据本次事件的上下文选择合适的事件送入循环神经网络（RNN）网络，之后根据本次事件和之前生成的描述来生成本次描述。这样一方面可以考虑到事件之间和描述之间的相关性，又可以大幅地减少事件的数量，提高生成描述的精度。除此之外，还使用了强化学习的方法，让网络自主学习提取与ground truth更为相近的事件候选框。
　　Jae Sung Park等人假设事件候选框已经给定，完全只考虑优化描述的生成来提升网络的性能。之前的方法生成的描述之间大都存在冗余或者不一致的问题，针对这些问题，该工作提出了一种使用对抗网络来生成描述的网络结构。针对一个事件，生成多个描述送入对抗网络中，对抗网络会从描述与事件之间的相似性，描述本身的流畅性和是否符合语法，描述与之前的描述之间的关联性3个方面进行打分，选择分数最高的描述作为当前事件的描述。结果表明使用对抗网络生成的描述之间语义更一致，冗余更少。
　　本文探究的Video Captioning技术具有实际的意义，可以为视频的检索以及字幕生成提供极大的便利。虽然该技术相比于几年前，生成的描述更通顺、准确，但是要达到人工的水平还有很长的路要走。目前的问题主要体现在生成的描述依旧比较生硬，偶尔会出现幻觉现象影响准确性，在对准确性要求较高的场合无法满足要求。但是随着Video Captioning研究的不断深入，这些问题会逐渐被解决，Video Captioning将会为电视节目的制作带来极大的便利。
　　3. 结束语
　　本文分析了电视节目在制作过程中遇到的主要问题，包括选材困难和添加字幕工作量大。提出将深度学习中的Video Captioning技术应用到电视节目制作中，为视频原素材添加备注，方便视频的检索，为电视节目選材提供便利，并且可以自动为电视节目添加字幕，节约大量的时间和人力。虽然目前Video Captioning技术还不成熟，但为电视节目的制作提供了新的发展方向。
　　参考文献：
　　[1SubhashiniVenugopalan，MarcusRohrbach，JeffDonahue，RaymondMooney，TrevorDarrell，KateSaenko.SequencetoSequence–VideotoText.TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2015[C] 　　[2]JunchaoZhang，YuxinPeng.Object-awareAggregationwithBidirectionalTemporalGraphforVideoCaptioning.TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2019[C]，8327-8336
　　[3]LuoweiZhou，YannisKalantidis，XinleiChen，JasonJ.Corso，MarcusRohrbach.GroundedVideoDescription.TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2019[C]，6578-6587
　　[4]WenjiePei，JiyuanZhang，XiangrongWang，LeiKe，XiaoyongShen，Yu-WingTai.Memory-AttendedRecurrentNetworkforVideoCaptioning.TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2019[C]，8347-8356
　　[5]EscorciaV，HeilbronFC，NieblesJC，etal.DAPs：DeepActionProposalsforActionUnderstanding.EuropeanConferenceonComputerVision，2016[C].
　　[6]RanjayKrishna，KenjiHata，FredericRen，LiFei-Fei，JuanCarlosNiebles.Dense-CaptioningEventsinVideos.TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2017[C]
　　[7]JonghwanMun，LinjieYang，ZhouRen，NingXu，BohyungHan.StreamlinedDenseVideoCaptioning.TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2019[C]，6588-6597
　　[8]JaeSungPark，MarcusRohrbach，TrevorDarrell，AnnaRohrbach.AdversarialInferenceforMulti-SentenceVideoDescription.TheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2019[C]，6598-6608
　　作者簡介：梁霄，北京人，高级工程师、副处长、研究方向：有线电视技术。

其他文献

“复兴号”动车组网络控制系统冗余设计

为解决高速动车组网络系统在冗余性设计上的安全性及可靠性等问题,以"复兴号"动车组网络控制系统冗余设计需考虑的因素为基础,提出了高速动车组网络控制系统在硬件及软件上的

期刊

动车组网络控制系统冗余设计

浅谈川尻善昭动画中女性角色造型的审美特征

川尻善昭,是日本动画名家,代表作有《吸血鬼猎人D》《妖兽都市》《兽兵卫忍风帖》等。其动画中的女性角色,有绮丽妖冶之姿,兼柔媚幽怨之态,别具风格,使观者惊艳。其中的角色

期刊

川尻善昭动画角色造型审美特征

贵州民族民间蜡染纹样及文化研究

贵州民族民间蜡染纹样造型严谨,纹理变化丰富,结构完美,拥有独特的形式美法则,是一种象征性的艺术表现方式。贵州民族民间蜡染作为一种非物质文化遗产,有其特定的生命能量。

期刊

民族民间蜡染纹样文化

中药联合康复训练治疗脊髓损伤后遗尿失禁对排尿功能及MBI评分的影响

目的:观察中药联合康复训练治疗脊髓损伤后遗尿失禁对排尿功能及改良Barthel指数(MBI)评分的影响。方法:80例均为脊髓损伤后遗尿失禁患者,按照随机数字表法分为观察组和对照

期刊

脊髓损伤后遗症补中益气汤合真武汤膀胱功能训练排尿功能日常生活活动能力

接骨木属植物化学成分和药理作用的研究进展

目的:综述接骨木属植物化学成分和药理作用的研究进展,为其进一步研究及合理利用提供参考。方法:在查阅历代古籍的基础上,结合检索中国知网、万方数据、维普、SciFinder等数

期刊

接骨木属化学成分药理作用

茄子新品种试验总结

茄子是喀什地区种植较广泛的蔬菜作物之一。多年来喀什地区的主栽品种一直为兰杂一号,该品种虽然具有产量咼、商品性好等特点,但因品种单一,喀什地区茄子生产需要进行新品种

期刊

品种对比试验新品种引进试验总结蔬菜作物茄子新品种商品性喀什地区早熟性

时空观念在高中历史教学中的培养研究

在传统的高中历史教学中，有些教师以叙述与分析历史事件为主，课堂教学过程较为枯燥，难以对学生产生较大吸引力，导致学生不能有效参与教学活动。这样，不仅影响其对历史知识的了解，而且还不利于时空观念的养成，对学生未来发展造成一定影响。所以，教师需要加强对高中历史教学的重视程度，优化教学方法，以提升高中历史教学的有效性，培养学生的时空观念。　　一、体验式教学　　高中历史比较抽象，学生难以了解其本质，进而影响

期刊

高中历史教学优化教学方法时空观念有效参与教学的有效性教学活动课堂教学学生未来发展

川芎清脑颗粒联合氟哌噻吨美利曲辛片治疗前庭型偏头痛临床观察

目的:观察川芎清脑颗粒联合氟哌噻吨美利曲辛片治疗前庭型偏头痛的效果。方法:120例分为两组各60例,两组均给予氟哌噻吨美利曲辛片治疗,观察组加川芎清脑颗粒治疗。结果:观察

期刊

前庭型偏头痛川芎清脑颗粒氟哌噻吨美利曲辛

Video Captioning人工智能技术在电视媒体中的应用

其他学术论文