论文部分内容阅读
计算机硬件的处理能力的不断增强以及网络带宽逐年的扩容,使人们在网络上在线收看视频甚至是高清视频成为现实。网络视频开始逐渐取代了传统电视的地位,成为人们观看视频的第一选择。因此,人们需要一种工具来达到对网络视频进行快速检索的目的。目前我们常用的搜索引擎大多数都是通过关键字来进行检索,但是对于具有丰富信息的视频数据来说,用户很难用精确的语言来概括视频的特征,使用语言来描述具有一定的主观性,通过这种方式往往会搜出大量无用的信息,效率十分低下。因此,我们需要一种更直观的方式来对网络视频进行检索。基于内容的web视频搜索引擎正是在这样的需求下产生的。基于内容的视频检索技术,是通过对视频进行镜头检测,然后提取镜头关键帧,对特征进行提取后,利用视频特征进行检索的技术。网络爬虫是构建基于内容的web视频搜索引擎的基础,首先需要将网络中成千上万的视频数据通过爬虫收集起来,搜索引擎才能进一步对视频的内容进行分析处理,建立索引。本文以实现基于内容的视频搜索引擎为目的,深入研究了Heritrix爬虫的相关技术,流式传输技术及网络数据包的捕获技术。由于现在很多视频网站隐藏了视频的真实地址,通过查看地址栏的地址或解析HTML文本都无法得到视频的真实地址。因此,本文提出了通过分析视频服务器与本地网卡的网络交换数据包来获取视频下载地址的方法,在Heritrix爬虫的基础上实现了通过网络爬虫爬取视频文件的功能,设计出了面向web视频的网络爬虫。本文首先介绍了web视频搜索引擎系统的总体设计,分别介绍了视频信息获取模块、视频处理模块、视频分类模块和视频检索模块。通过对网络数据的捕捉和分析,达到了获取视频真实下载地址的目的。根据视频检索的需要,还实现了中文分词和视频标准化。针对爬虫爬行单个网站时不能充分发挥爬虫多线程运行的特点,改进了URL的分配策略,提高了爬虫的运行效率。最后对爬虫和整个系统性能进行了测试。