面向web视频的网络爬虫的研究与实现

被引量 : 15次 | 上传用户：bbatdead

【摘要】

：

计算机硬件的处理能力的不断增强以及网络带宽逐年的扩容，使人们在网络上在线收看视频甚至是高清视频成为现实。网络视频开始逐渐取代了传统电视的地位，成为人们观看视频的第一

【作者】

：

陈实

【发表日期】

：

2012年01期

【关键词】

：

web视频检索爬虫视频地址解析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机硬件的处理能力的不断增强以及网络带宽逐年的扩容，使人们在网络上在线收看视频甚至是高清视频成为现实。网络视频开始逐渐取代了传统电视的地位，成为人们观看视频的第一选择。因此，人们需要一种工具来达到对网络视频进行快速检索的目的。目前我们常用的搜索引擎大多数都是通过关键字来进行检索，但是对于具有丰富信息的视频数据来说，用户很难用精确的语言来概括视频的特征，使用语言来描述具有一定的主观性，通过这种方式往往会搜出大量无用的信息，效率十分低下。因此，我们需要一种更直观的方式来对网络视频进行检索。基于内容的web视频搜索引擎正是在这样的需求下产生的。基于内容的视频检索技术，是通过对视频进行镜头检测，然后提取镜头关键帧，对特征进行提取后，利用视频特征进行检索的技术。网络爬虫是构建基于内容的web视频搜索引擎的基础，首先需要将网络中成千上万的视频数据通过爬虫收集起来，搜索引擎才能进一步对视频的内容进行分析处理，建立索引。本文以实现基于内容的视频搜索引擎为目的，深入研究了Heritrix爬虫的相关技术，流式传输技术及网络数据包的捕获技术。由于现在很多视频网站隐藏了视频的真实地址，通过查看地址栏的地址或解析HTML文本都无法得到视频的真实地址。因此，本文提出了通过分析视频服务器与本地网卡的网络交换数据包来获取视频下载地址的方法，在Heritrix爬虫的基础上实现了通过网络爬虫爬取视频文件的功能，设计出了面向web视频的网络爬虫。本文首先介绍了web视频搜索引擎系统的总体设计，分别介绍了视频信息获取模块、视频处理模块、视频分类模块和视频检索模块。通过对网络数据的捕捉和分析，达到了获取视频真实下载地址的目的。根据视频检索的需要，还实现了中文分词和视频标准化。针对爬虫爬行单个网站时不能充分发挥爬虫多线程运行的特点，改进了URL的分配策略，提高了爬虫的运行效率。最后对爬虫和整个系统性能进行了测试。

其他文献

高频彩色多普勒超声在诊断乳腺肿块中的应用

目的探讨高频彩色多普勒超声诊断乳腺肿块的价值。方法回顾性分析68例乳腺肿块患者高频彩色多普勒超声检查结果,并与手术病理检查结果进行对照分析。结果在乳腺肿块的高频彩

期刊

超声检查多普勒彩色乳腺肿瘤/超声检查临床价值

蔬菜亚硝酸盐的快速测定

研制了亚硝酸盐快速测试盒 ,该盒携带方便 ,可用于对货架蔬菜的亚硝酸盐测定 .将速测盒法的测定值与GB/T15 40 1- 94的测定值相比较 ,10个不同种类蔬菜的误差范围为 -11 7%～ 4

期刊

食品分析快速测定亚硝酸盐蔬菜

把人民群众作为敬畏的“本体”

一种文化、一个社会,必须培养起“敬畏”心理,这样的文化与社会才会是健康的,也才会保证精神文明积极向上。$$　　　　中国共产党非常注重敬畏心理的养成。邓小平早在1957年,

会议

巧妙“搭配” “合理”设计——试题创作点滴体会

文章将若干基本初等函数进行巧妙地＂搭配＂,并围绕考查目标＂合理＂地设计相关参数,创作出考查功能良好的试题.

期刊

函数导数试题创作

化工原理课程教学中互动教学法的运用与探讨

互动教学法有利于提高课堂教学效率。本文以化工原理课程教学为主，从教案设计、多媒体课件制作、课堂教学实施、互动点设计、互动形式等方面探讨互动教学法。

期刊

化工原理互动教学法策略设计

倾斜反射镜的驱动设计与控制研究

倾斜反射镜常用于微定位系统，在自适应光学系统中可用于实现波前整体校正，在空间光通信ATP系统中可用于执行精跟踪光束偏转等。基于倾斜反射镜的微定位系统需要重点关注小角度

学位

倾斜反射镜压电陶瓷驱动PID整定

维生素D3联合5-氟尿嘧啶对人食管癌Eca-109移植瘤的作用及机制探讨

目的：观察单独与联合应用1,25-（OH）2维生素D3、5-氟尿嘧啶对人食管癌Eca-109细胞裸鼠移植瘤的影响，探讨1,25-（OH）2维生素D3、5-氟尿嘧啶单独与联合应用对裸鼠移植瘤生长的作用及机

学位

125-（OH）2维生素D35-氟尿嘧啶食管癌VDR钙沉积

一部关于“失落”的寓言——解读阿来小说《空山》

《空山——机村传说壹》由两个相互关联又相互独立的部分构成,以不同的视角拼接出一个藏地村落的历史片段,并由此折射出整个民族历史命运的变迁。在新旧价值观、文化观念以及

期刊

神性人性群体个体失落

基于云服务平台的应用软件商店开发者社区研究与实现

随着互联网技术的大规模普及，社交网络服务SNS（Social Networking Service）很快成为热门的互联网应用。据统计，2011年SNS的使用率占所有互联网应用的47.6%。SNS的迅速发展，逐渐使

学位

云平台Hadoop技术社交网络服务软件即服务

胶州市食品安全监管协调机制问题及对策

分工是引发部门间协调的根本原因,我国以环节定监管部门的分段监管体制,由于部门间缺乏协调和联动,部门间的协调不力引发监管系统的矛盾和冲突,导致食品安全监管的无序与混乱

学位

食品安全监管协调机制

面向web视频的网络爬虫的研究与实现

与本文相关的学术论文