分布式主题网络爬虫的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：zhilong217

【摘要】

：

近些年来，互联网信息资源快速增长,如何能够准确高效的在海量的网络资源中获取需要的信息成为了网络研究的一个热点。通用搜索引擎的信息量大，覆盖面广，满足了用户基本的信息检

【作者】

：

刘强

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2016年期

【关键词】

：

主题爬虫机器学习支持向量机搜索引擎信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年来，互联网信息资源快速增长,如何能够准确高效的在海量的网络资源中获取需要的信息成为了网络研究的一个热点。通用搜索引擎的信息量大，覆盖面广，满足了用户基本的信息检索需求。但随着网络资源的不断增长，用户的个性化、定制化、专业化的搜索需求不断增多。主题搜索引擎正是在这样的背景下应运而生。主题搜索引擎只采集与某个特定领域相关的网络信息资源,它不仅能够为用户提供更加高效、准确、定制化的检索服务,而且信息检索结果的时效性更强，因而成为现代信息检索的一种发展趋势。　　网络爬虫是搜索引擎的重要组成部分，它负责在互联网上抓取网页信息。与通用搜索引擎的爬虫相比，主题爬虫面向特定领域，仅仅采集与主题相关度高的网页信息，而忽略其他信息。因此，它的信息更新周期更短，可以提供1-2天内发布的最新信息。由于互联网信息量巨大，使用单机来实现主题爬虫并不现实，分布式主题爬虫引起了业界的广泛关注。　　基于开源项目Nutch，本文实现了一个分布式主题爬虫系统。本文所提出的爬虫系统对Nutc h进行了扩展和优化，使得爬虫能有选择地搜索与主题相关的网页或网络资源，减少了无关页面的访问频次，提升了爬虫的性能。具体来说，本文将基于支持向量机（SVM）的文本分类系统应用于主题相关度计算之中，并对该文本分类系统进行优化和改进，使之更好地服务于主题爬虫。其次，传统的主题爬虫系统各个模块之间耦合度高，本文运用分层思想，重新设计了主题爬虫系统的架构，使得主题爬虫系统业务扩展更加容易，并根据各个模块的存储特点合理选择存储策略，增强了系统的稳定性。最后，对网页重要性评价机制（OPIC算法）和URL评分机制进行改进，使得在信息采集过程中，可以优先采集与主题相关度高的页面，提高了信息采集的效率。

其他文献

数码相机自动聚焦算法的研究与实现

现有的数码相机自动聚焦算法由两个部分组成,一个是聚焦算子,一个是寻优搜索算法.该论文介绍了常用的聚焦算子:VAR算子、Tenengrad算子和SMD算子,还详细推导了FSWM滤波算子.

学位

自动聚焦算法自动聚焦算法聚焦算子聚焦算子HCS算法HCS算法图像高阶矩图像高阶矩

基于DWDM系统的光纤放大器的研究

在这信息爆炸的时代,人们对信息量的需求与日俱增,信息容量大、传输质量高、可靠性好等这些要求给骨干传输系统带来了很大的挑战。而光纤通信的发展和密集波分复用技术的提出

学位

密集波分复用拉曼光纤放大器掺铒光纤放大器铒镱共掺光纤放大器optisystem仿真色散补偿

基于ARM的掌纹图像采集系统的设计与实现

进入21世纪以来,信息安全已经成为社会各界关注的重要问题。随着IT技术的发展,传统的身份认证如身份证,IC卡,密码等方法都暴露出了易受攻击和存在失密的问题,造成严重的安全

学位

掌纹ARM图像采集硬件设计

基于DCT的鲁棒性视频水印技术研究

随着网络技术和多媒体技术的快速发展，数字视频的版权保护问题成为一个亟待解决的技术难题，而数字视频水印技术是数字视频版权保护的有效手段。视频水印技术可分为基于压缩视频

学位

数字视频水印离散余弦变换人类视觉系统图像光流场鲁棒性

人类活动与地震灾害耦合系统—汶川地震灾后城市恢复力研究

在自然灾害愈演愈烈的严峻背景下，本文对地震活跃地区城市人类活动与地震灾害之间的相互作用进行分析，探索不同社会状况和人类活动对城市地震灾害脆弱性、适应性和恢复力的影响

学位

脆弱性推断评估模型区域化地震灾害耦合系统城市恢复力

压缩感知在无线传感器网络中的应用研究

随着无线传感器网络规模扩大,能量消耗、数据流量增大等问题越显突出。压缩采样技术的出现为解决这些问题提供了一种有效途径,因此,成为目前研究的一个热点。本文将压缩感知

学位

无线传感器网络压缩感知信号的重构稀疏事件检测

分布式主题网络爬虫的设计与实现

其他学术论文