论文部分内容阅读
随着互联网技术的迅猛发展以及存储、数字化设备性能的提升,视频数据量呈现几何级数增长的趋势。如何高效检索这些海量视频成为一个急需解决的问题。目前对这些视频检索和组织的方法主要是从视频中提取出能对视频内容进行语义层次表述的“元数据”,然后再利用这些元数据对视频进行检索。视频语义标注(通常又称为视频概念检测、高层语义特征提取等)是获取这些元数据的一种基本方法,并且该技术在基于视频的各种应用中都具有广泛的意义。
在综合分析已有的视频语义标注方法的基础上,首先构造最优训练样本集,其次提出基于相关核映射线性近邻传播的视频语义标注算法,再者将相关反馈技术成功应用到视频标注中,提出基于相关核映射线性近邻传播的视频语义反馈标注算法,最后设计并实现相应的原型系统。具体内容如下:
1)构造最优训练样本集。首先根据镜头之间的相似性和时间上的相关性,对视频镜头进行预聚类;然后用改进的K-means算法对预聚类的结果进行处理,使得聚类后的结果更能真实的代表视频的分布;最后从聚类之后的结果中选择样本并构造出最优的训练样本集。
2)提出基于相关核映射线性近邻传播的视频语义标注算法。该算法通过核函数按照半监督学习调整后的距离,计算出迭代标记传播系数,并通过该系数求得表示低层特征空间的样本,然后根据视频相关性建模,构造出语义概念间的关联表,最后完成近邻图的构造,并利用己标注视频信息迭代传播到未标注视频中,完成视频标注。
3)提出基于相关核映射线性近邻传播的视频语义反馈标注。该方法基于相关反馈技术在视频的检索中已经产生了重大的影响,首先根据相关核映射线性近邻传播算法获取语义概念和关键帧之间的联系,构建语义关联网络;然后引入基于支持向量机的反馈技术,不断的对视频标注结果进行反馈;最后引入长期学习记忆机制不断的调整模型中的训练样本的标记信息,使得模型最终达到稳定的标注状态。
4)采用面向对象思想设计并开发视频语义反馈标注的原型系统。该系统包括最优训练样本集的构造、视频语义标注、手工标注、视频语义反馈标注等功能模块,通过实验对比验证所提方法的有效性。