分布式多媒体网络爬行系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tgw2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和多媒体技术的飞速发展,推动了数字多媒体作品的在线销售与传播,也带来了版权侵犯问题。数字作品可以被轻易拷贝,任何人均可通过网络将版权保护作品进行再次分发。使用网络爬虫主动搜索互联网中的多媒体作品(图像、音频和视频),利用拷贝检测和数字指纹技术追踪泄露者,可以有效地保护版权。设计实现了一个分布式多媒体网络爬行系统,实现对互联网上多媒体作品的抓取,为下一步版权保护提供检测数据来源。分布式网络爬虫的设计是一项极具挑战性的工作,在详细讨论一般爬虫设计架构的基础上,提出了一种实用的分布式架构设计,有效的结合了集中式和分布式设计的优点,较好地解决了任务调度与爬行结点动态加入和退出造成的重复爬行问题。网络爬虫的实现涉及到一系列关键技术,为加快爬行速度,尽早爬行到重要资源,采用基于URL过滤的宽度优先搜索策略,丢弃不重要的URL;在对基于Bloom Filter的URL判重方式进行详细分析讨论后,提出了一种基于Bloom Filter的分布式URL判重方法,每个爬行结点只维护自身任务范围内URL的判重结构,爬行结点越多,单个爬行结点需要进行判重的URL越少,减少了对内存的需求,加快了判重速度;爬行结点采用多线程实现可以有效加快爬行速度,但线程之间存在竞争,详细讨论了多线程设计中遇到的问题。在多媒体资源爬行方面,详细讨论了多媒体资源爬行下载中存在的问题及解决思路,着重介绍了视频分享网站中存在的视频下载问题,并以视频网站优酷为例描述了问题的解决方案。最后通过系统的实际运行评测,验证分布式多媒体网络爬行系统的实用性,并对需要继续研究改进的问题提出了展望。
其他文献
网络数据根据呈现的结构被分为表层网页数据和深层网页数据,深层网络数据占网络数据的大部分。由于通用主题爬虫注重抽取表层网络数据,没有重视深层网页数据的抓取,查全率不高;另
本文首先以新课程背景下数学学困生数量的明显增加,以及新课程对学生因材施教的全面发展要求开始,结合本地区生源特点,同时也为学校的可持续发展为引导,结合自身所处教学一线的大
数学运算能力是三大数学能力的基础,纵观全国各地的高考试卷,涉及到运算的题目所占比重不小,说明这个能力也是高考考查的重点,但笔者在近几年的高中数学教学中发现:高中生的数学运
近年来,随着我国公共安全产业的飞速发展,对远端产品运行信息的采集、传输和处理渐渐成为了公司企业的迫切需求。而具有类似功能的系统已经在电力监控、交通控制等诸多行业得到
风力发电机工作环境恶劣,常年经受无规律的变向变负荷的风力作用及强阵风的冲击,加之高空架设、维修困难等原因,对其可靠性和使用寿命都提出了比一般机械系统高得多的要求。作为
钛及钛合金因具有良好的力学性能和生物相容性,被广泛地应用为临床骨植入体。但是,由于其固有的表面惰性,钛基植入体只能通过机械锁合方式与周围骨组织整合。因此,在过去几十年中
本文以2001年至2008年沪深两市的上市公司年度数据作为样本,以Ball andShivakumar(2005)提出的分段线性模型作为盈余质量的计量模型,以知情交易概率PIN和特质风险Sd、Var作为信息
目的:手术切除是治疗巨大肝血管瘤的主要手段。而手术切除的方式主要包括肝切除术及肝血管瘤剥离术。本实验旨在通过回顾性分析,来比较肝切除术与肝血管瘤剥离术在治疗巨大肝血
随着网络应用的快速普及和发展,互联网界恶性竞争风起云涌。理性背后,互联网企业越来越重视对知识产权的开发和保护,但新兴产业的独特性,使如何有效利用专利武器参与市场角逐成为
本文主要对中国邮政集团公司重点建设项目,中国邮政速递物流股份有限公司上市募投项目之一-中国邮政速递物流华中陆路邮件处理中心项目建设的可行性进行分析研究。通过对华中地