文本检测模型在视频场景中的字幕召回问题研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wo861030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,网络中各类信息的丰富,越来越多的视频信息在互联网中广泛传播,面对日益增长的视频和图像资源数据,如何更高效,更快速地在繁多的资源中检索和访问到所需信息变得非常有意义。利用深度学习提取特征的方法广泛应用在今天高维度的海量数据处理中,论文对近年来影响力较大的基于神经网络的检测与分类模型做了充分论述,对物体检测模型与文本检测模型做了广泛分析,总结了基于深度学习中物体检测的单步骤模型与多步骤模型的特点,对文本检测中的单步骤与多步骤模型做了分析,对文本检测模型的评价标准做了详尽讨论。论文从场景文本检测模型入手,在深入研究场景文本检测网络模型,熟悉视频图像中字幕文本的特点之后,针对视频场景下文本检测模型对长字幕检测效果差的问题,改进了场景文本检测基础网络模型中的残差块结构,加入空洞卷积以及长卷积核,并对其在原文本检测模型基础上改进的网络做了实验分析。后在详尽分析场景文本检测模型中的针对所检测文本框的融合方法后,针对关于置信度加权平均方法在视频场景下长文本检测的弱点,将其改进为取坐标点集合的第二级值操作,将不放回操作改进放回操作,并去除标准非极大值抑制。论文以tensorflow为开发平台,针对场景文本检测模型的的弱点在网络结构以及后处理做了相应的改进。经改进的残差网络与原残差网络进行效果对比,精准率与召回率效果提升不明显。经改进的文本框融合方法与原方法对比,实验验证在精准阈值较小的情况下实现召回率极大提升,在精准阈值较高的情况下在以损失部分准确率的代价下实现召回率的较大提升。
其他文献
随着人类信息技术的不断发展,互联网传播信息的形式呈现日益多样性。整个互联网中,各行各业累积的数据量越来越大,企业与个人端的数字内容也在无限增长。在云端的多媒体数据
随着时代的发展,计算基础资源也大踏步的前进。在早期计算资源配置上IT资源以主机为基础的调度单位,用户的应用程序多直接运行在裸机中。这个模式在当今的背景下凸显出越来越
随着信息技术的发展和经济全球化趋势的增强,我国公共行政管理所面临的内外环境发生了重大变化,行政改革正如火如荼的进行。宏观层面上的系统思考与战略决策,要求实现向服务
随着计算机辅助优化技术的发展,工业设计过程中越来越依赖相关软件辅助产品的设计与优化。iSIGHT软件作为一款优秀的计算机辅助优化工具,能集成大部分常用的建模、分析软件,
随着科技的进步和人民衣食住行条件的提高,越来越多居民选择出门旅行。随之而来的安检问题也成为了焦点。传统安检手段一般使用X射线检测仪与金属武器检测器。X射线检测仪对
随着移动通信技术的发展及智能移动终端的广泛普及,人们通过手机、平板电脑等移动终端访问互联网逐渐成为一种趋势,以手机为代表的移动终端逐渐成为网民上网的主要设备。网络
多普勒测风激光雷达是获得大气环境参数的重要手段,国内多家科研机构在测风激光雷达领域取得了突破性进展,已实现了钠层峰值区(约91 km)和钠层边缘(约82和103 km)风场的探测
唐宋诗事关系研究,观照唐宋时期诗歌重事的文学现象,对诗与事二者之间的相互作用进行探讨。“在事为诗”,缘事而作,解释了诗歌的发生原因;“指事造型”概括了诗歌创作过程中
随着社交网站的快速发展,社会化标注逐渐成为了Web2.0中人们非常感兴趣的研究方向。社交网站中因其使用开放式标签分类和检索内容的简单性而在网络上越来越受欢迎。社会化标
随着多媒体业务的快速增长,IP用户所需带宽不断增加并趋于多样化,对节点的计算能力提出了更高的要求。码群路由体路径计算单元(Path Computation Element,PCE)建立,使得传输