分布式主题网络爬虫的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhilong217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,互联网信息资源快速增长,如何能够准确高效的在海量的网络资源中获取需要的信息成为了网络研究的一个热点。通用搜索引擎的信息量大,覆盖面广,满足了用户基本的信息检索需求。但随着网络资源的不断增长,用户的个性化、定制化、专业化的搜索需求不断增多。主题搜索引擎正是在这样的背景下应运而生。主题搜索引擎只采集与某个特定领域相关的网络信息资源,它不仅能够为用户提供更加高效、准确、定制化的检索服务,而且信息检索结果的时效性更强,因而成为现代信息检索的一种发展趋势。  网络爬虫是搜索引擎的重要组成部分,它负责在互联网上抓取网页信息。与通用搜索引擎的爬虫相比,主题爬虫面向特定领域,仅仅采集与主题相关度高的网页信息,而忽略其他信息。因此,它的信息更新周期更短,可以提供1-2天内发布的最新信息。由于互联网信息量巨大,使用单机来实现主题爬虫并不现实,分布式主题爬虫引起了业界的广泛关注。  基于开源项目Nutch,本文实现了一个分布式主题爬虫系统。本文所提出的爬虫系统对Nutc h进行了扩展和优化,使得爬虫能有选择地搜索与主题相关的网页或网络资源,减少了无关页面的访问频次,提升了爬虫的性能。具体来说,本文将基于支持向量机(SVM)的文本分类系统应用于主题相关度计算之中,并对该文本分类系统进行优化和改进,使之更好地服务于主题爬虫。其次,传统的主题爬虫系统各个模块之间耦合度高,本文运用分层思想,重新设计了主题爬虫系统的架构,使得主题爬虫系统业务扩展更加容易,并根据各个模块的存储特点合理选择存储策略,增强了系统的稳定性。最后,对网页重要性评价机制(OPIC算法)和URL评分机制进行改进,使得在信息采集过程中,可以优先采集与主题相关度高的页面,提高了信息采集的效率。
其他文献
现有的数码相机自动聚焦算法由两个部分组成,一个是聚焦算子,一个是寻优搜索算法.该论文介绍了常用的聚焦算子:VAR算子、Tenengrad算子和SMD算子,还详细推导了FSWM滤波算子.
在这信息爆炸的时代,人们对信息量的需求与日俱增,信息容量大、传输质量高、可靠性好等这些要求给骨干传输系统带来了很大的挑战。而光纤通信的发展和密集波分复用技术的提出
进入21世纪以来,信息安全已经成为社会各界关注的重要问题。随着IT技术的发展,传统的身份认证如身份证,IC卡,密码等方法都暴露出了易受攻击和存在失密的问题,造成严重的安全
随着网络技术和多媒体技术的快速发展,数字视频的版权保护问题成为一个亟待解决的技术难题,而数字视频水印技术是数字视频版权保护的有效手段。视频水印技术可分为基于压缩视频
在自然灾害愈演愈烈的严峻背景下,本文对地震活跃地区城市人类活动与地震灾害之间的相互作用进行分析,探索不同社会状况和人类活动对城市地震灾害脆弱性、适应性和恢复力的影响
随着无线传感器网络规模扩大,能量消耗、数据流量增大等问题越显突出。压缩采样技术的出现为解决这些问题提供了一种有效途径,因此,成为目前研究的一个热点。本文将压缩感知