论文部分内容阅读
伴随互联网的不断发展,网络信息的爆炸式增长及个人用户所能获取带宽的不断增加,网络视频内容已经逐步成为互联网上最为丰富且最为庞大的信息群体。同时,随着Web2.0概念的不断深入人心,视频社区成为互联网上视频发布、分享与交流的最大平台。资源的不断丰富就使得如何对这些资源进行有效的管理成为日益受到关注的问题之一。对互联网上视频内容进行管理,可以大致归纳为处理三个实体间相互关系的若干个问题。这三个实体分别是视频服务提供商、互联网用户及第三方监管部门。视频服务提供商为了便于自身网站的结构组织及用户的快速查找,需要寻找海量数据的有效组织方法;以用户为中心的Web2.0式的网络浏览方式为网站的维护者提出了更高的要求,个性化的视频推荐机制成为网站成功不可或缺的必要组成部分;此外,由于用户的行为不可能得到绝对的控制,第三方监管部门会要求视频服务提供商对用户上传的视频进行版权的检查,删除违反版权法律的视频以维护原作者的权益。而新鲜的网络视频社区环境,正为研究者解决以上问题提出了新的挑战与机遇。针对以上描述的问题,本文重点研究了在视频社区环境当中,如何利用视频间、用户间以及视频内部本身的信息,对前面提出的问题进行有效的解答。具体来说,论文主要研究内容和创新成果如下:1.提出一种能够利用视频网站结构信息,并立足于网络视频本身周围的文字信息、进行视频主题发现的算法。首先,针对视频网站上文本信息质量很低的情况,本文根据视频网站对每一个视频提供的相似视频的元数据,对目标视频进行文本信息增强。其次,在对文本信息图进行分割聚类从而发现视频主题的结果上,通过其指导重新定义原始的视频文本信息图,迭代地得到更加准确的主题发现结果。最后,利用视频网站中提供的视频对视频回复关系的结构图,依据“两个具有回复关系的视频应具有主题上的部分一致性”的假设,对己有主题发现结果进行优化。实验结果表明,本文提出的算法较之前该领域内的算法,在主题发现的准确度上有较大提升,同时,较之常用的隐主题模型方法,在发现大规模数据中小粒度主题这一问题上,能够节省大量的计算时间。2.提出一种基于用户情感分析及用户间社交关系的个性化视频推荐算法。首先为有效快速地实现对重复上传的视频的检测,提出了层次化的基于全局特征的重复视频检测算法。其次,根据已有的通过使用有上下文帮助的基于字典的情感判断模型,将用户对于某个视频的回复信息,量化成为用户对某个视频段集合的打分信息、。最后,提出使用用户的社交关系对推荐给特定用户的特定视频集合结果进行二次挑选的策略。在我们的实验数据集上,这个算法框架可以取得明显的性能提升。3.提出一种新的关于仿制视频的问题,同时提出一种能够对其进行有效描述的模型,并将其应用在一个新的仿制视频检索的系统框架里。首先,对仿制视频本身做出了较为准确的定义,提出了检测搜索仿制视频的问题。其次,针对仿制视频本身具有的特点,将仿制视频段落用一个以动作词集合为基础的时间序列模型进行表述。并在这一视频段落描述模型的基础上,设计了专为其使用的视频相似度计算方法:最大相似特征包度量。最后,使用视频上下文信息,对仿制视频检索系统进行了性能优化。通过在特意挑选的、覆盖大部分情况的7个主题的仿制视频构成的数据集上进行的实验表明,本文提出的模型及系统能够正确的对仿制视频本身进行描述,并有效的完成仿制视频检索的任务。论文的最后,在总结全文工作及贡献的基础上,对未来的研究工作提出了展望。