论文部分内容阅读
视频中人工文本是由制作人员在影片制作后期手工添加的,用来补充说明图像内容的文本字符。人工文本与图像内容的联系紧密,使得它对图像内容的说明以及检索有着十分重要的意义,因此视频中人工文本的提取与识别成为当前的研究热点。本文在对现有视频文本提取方法研究的基础上,针对解决视频图像低分辨率、定位提取速度慢、特征提取方法复杂等问题,给出一种基于对偶传播神经网络(CPN)的视频人工文本提取方法。首先,针对目前存在的视频文本提取方法自动化程度较低、网络输入特征提取方法复杂、训练样本集制作困难的问题,提出了对视频帧进行分割切片,直接以切片区域像素原始灰度值作为CPN输入的方法;其次,针对CPN在模式分类方面的优势,重点研究了CPN的结构算法和特点,以部分优选的输入样本初始化输入层与竞争层连接权值矩阵、以期望输出直接对竞争层与输出层的连接权值矩阵赋值的方法,结合竞争层神经元获胜次数限定,解决了网络“死神经元”问题,同时也使训练速度大大加快,网络性能进一步提高;然后,利用设计的限定性CPN对视频帧文本进行初步定位,并根据距离关系进行组合,得到初步文本区域;最后,采用图像增强技术和形态学方法对初步定位的文本区域进行降噪和增强处理。实验表明,论文提出的方法算法简单,性能良好,速度很快,实现了以简单方法解决复杂问题的目的。