基于深度学习的视频封面提取算法

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:kjnojn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息传输速度的不断提升和视频拍摄设备的普及,引发了人们对于视频分享和创作的热情。然而,只有少部分视频创作者具备编辑视频封面的时间和能力,大量缺乏优质封面的视频降低了视频的分享和检索效率。针对以上问题,本文对视频帧的视觉美学度和内容代表度进行建模,构建了通用的视频封面提取算法。而后,针对人物视频,构建人脸识别模型获取视频帧中的人脸语义信息,并将信息嵌入到上述通用的视频封面提取算法中,以确保封面包含视频中的主要人物,进一步提升了封面提取的效果。在探究过程中,本文实现了以下成果:第一,提出了引入特征重标定机制的稠密连接网络。针对稠密连接网络中大量的复用特征,引入特征重标定机制,对特征之间的通道相关性进行建模,增强有用特征的同时压缩无用的特征,进而提升模型的表征能力,为视频帧的美学评价和代表性评价奠定基础。通过和MNA-CNN、ILGNet等同类模型在测试集上的比较,验证了模型的优越性。第二,采用逐层可分离卷积层替换ShuffleNet网络末端的全局池化层,来获取人脸对齐后面部特征点相对稳定的分布信息。人脸对齐操作是将图像中检测到的面部特征点映射到指定区域,以实现人脸主要特征的稳定分布,本文利用逐层可分离卷积层获取这一分布信息。对比原网络的全局池化层,提升了人脸识别任务的精度。在控制算法参数量为20MB的情况下,实现了在人脸数据集MegaFace上误检率百万分之一,识别率为96.37%,超过了MobiFace、FaceNet等同类模型的效果,为封面提取算法提供更准确的人脸语义信息。第三,提出多表征视频封面提取方法,融合美学特征、帧的代表性特征和人脸特征。从多个表征出发,选择最优帧作为封面。通过在多个视频数据集上的实验,验证了该方法的有效性。
其他文献
在我国西北地区,铁路项目的隧道工程越来越多,其对黄土含水层的地下水环境影响受到关注。为减轻隧道工程对地下水环境的影响,保证当地居民正常的生活用水及生态用水,以穿越黄
CrossHair Ⅴ Formula/Thunderbolt采用的是AMD 990FX芯片组,是目前AMD推土机平台上最高端同时也是功能最齐全的芯片组。而产品基于该芯片组的同时还为用户加载了不少实用的亮点功能,例如这块Thunderbolt扩展卡。它沿用XONAR专业团队的技术打造的独立音效供电电路,不仅能承载更大的功耗,也有效提升更高的音效品质和更宽的音域范围。它内置高性能放大器可以直接驱动3
为了提高实验教学手段,采用计算机和传统方法进行明视持久度测定,结果经统计分析表明,两种方法间有很好的相关性(P〈0.01)。用计算机测定明视持久度,条件容易控制,较少受主观因素影响
随着社会的发展与科学的进步,人们的物质生活水平日益提高,股票投资也逐渐走进千家万户,成为人们生活密不可分的一部分。由于股票投资具有高收益的特点,使得人们对此趋之若鹜
生理学是医学生的基础课程之一,在医学教育中具有重要地位。随着计算机网络技术的发展,网络对教学的影响越来越大,如何在生理学教学中充分运用网络化教学技术,更好地发挥网络化教
为了研究无砟轨道钢轨横向稳定性,以曲线上单元板式无砟轨道无缝线路为对象,建立包括钢轨、扣件、轨道板和限位部件的无砟轨道钢轨横向变形计算模型,结合不同轨道板长度分析钢轨
学生评教是高校课堂教学质量自我监控的重要环节之一,根据学校近期学生评教结果,分析青年教师在教学过程中存在的问题,并提出整改意见,为进一步完善和提高青年教师的教学质量
首次研制出一种第一带隙从~450nm到900nm的新型全固态光予带隙光纤,结构如图1(a).包层中掺锗玻璃线外面围有一层掺氟玻璃环,这种设计可以增强对传导光的限制,并提高弯曲特性.利用脉冲
蛋白质序列分析是蛋白质化学研究中的核心技术。运用Edman降解进行蛋白质N端顺序测定已成为十分完善的技术,并已经实现了自动化。C端与N端一样,在蛋白质分子结构分析中具有重要
在乡村城镇化的发展过程中,以单一村落为范围的乡村发展模式难以解决乡村生态系统退化,公共服务设施短缺,乡村文化没落等宏观问题。在此背景下,江苏特色田园乡村建设提出以“团”区域为单位,覆盖3个左右相对集聚的村庄,重点关注试点村庄的关联性和互动性研究,以利于形成空间连绵、整体示范效应明显的区域。而绿道的连通性与多功能性,使其成为了促进各类资源要素流动的重要空间载体,有利于落实多村联动发展中的关联性和互动