论文部分内容阅读
随着多媒体和网络技术的发展,面向海量视频数据的检索已成为一种迫切的需要。作为视频检索的必要基础,视频索引问题的解决将为基于视频数据库和互联网的搜索应用提供基本的技术支持。而基于视频内容分析的自动视频标注是建立高性能视频索引的十分有效的方法。本论文针对非特定领域的视频数据集的标注任务,在一个统一的视频标注框架下,着重探讨了机器学习理论在时间序列(视频数据)这个特定背景下的理论扩展和应用,以及结合机器学习与视频特点的视频语义标注方法。研究利用半监督、主动学习以及两者之间的结合等方法提高标注准确性,以期对非特定领域的视频数据集,自动的或在尽量少的人工参与情况下,取得与完全手工标注尽可能接近的结果,达到可实际应用的目的。由于视频标注涉及到机器学习等领域中的许多重要的理论和应用问题,需要从新的角度,基于新的条件对这些问题重新进行审视,并在研究过程中不断探索、寻求人机结合的最佳途径,推动机器学习理论领域的发展。本论文的主要研究工作如下: 首先,由于高层语义概念与底层特征间存在着“语义鸿沟“,采用传统的有监督学习方法进行分类/标注时需要在很大的训练集上建立待标注概念的统计模型,从而保证所得到的分类器具有良好的推广性能,但是建立这个训练集往往需要大量的人工劳动。与之相对的是,我们可以很容易的获得大量的未标注样本,对未标注样本中的隐含信息加以挖掘可以在有限训练样本集的情况下有效的提高标注准确性。因此,对于某些简单概念,本文提出了多个基于半监督学习的自动视频标注方法。通过对几种常见的半监督学习方法,如自训练、互训练以及Co-EM等方法的分析,针对它们(主要是自训练和互训练方法)在视频标注应用中的局限,在提高分类的准确性和模型更新等方面做了深入研究,提出了相应的改进措施。与此同时,利用视频中语义概念分布的特点,在标注过程中结合视频聚类分析,有效的纠正了一些孤立的错误分类结果。这些基于改进的半监督学习的自动视频标注方法对简单概念取得了较好的标注结果,同时也为后续结合半监督和主动学习方法的半自动视频标注研究打下了基础。 其次,上述自动视频标注方法对复杂概念进行标注的结果仍无法令人满意,其主要原因在于“语义鸿沟”的存在,初始训练集中所含的信息不足以表示该概