基于社会标注的主题爬虫研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dder77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网中信息的爆炸式增长,搜索引擎在人们生活中的作用越来越重要,人们对于搜索结果精度要求的提高,使得面向特定领域的垂直搜索引擎的诞生了。对于服务于垂直搜索引擎的主题爬虫,其主要任务就是在一定的时间内尽可能多的采集相关度高的网页信息,从而可以提高搜索引擎的效率,缓解急剧增长的网络资源与有限的存储资源的矛盾。主题爬虫的核心是主题相关度计算的方法和爬行的链接选取策略,现有的主题爬虫系统的相关度计算算法分成基于网页内容、基于网页链接结构和基于分类器预测三种,都不能够很好的适应社会化网络中发展。社会标注作为社会化网络发展的产物,是对网络资源的一种标示,是从网页浏览者角度赋予网页的一种特性。在分析并得出了社会标注的语义性和社会性的基础上,提出了一种基于标注的相关度计算算法,给出了算法的详细计算公式和步骤,由此来计算页面的主题相关度,最终将计算结果用于指导爬虫的爬行。以提出的社会标注的相关度计算算法为核心,实现了一个主题爬虫系统,采用异步IO以及线程池处理技术加速了爬虫的爬行速度,并通过多级缓存,DNS预取以及采用具有高速访问以及高并发访问特性的Berkeley DB等多种方法提高了爬虫爬行的效率。将社会标注的相关度值作为爬行过程中相关性判定的标准,提高相关网页判别的准确性,在相同时间和空间内,增加获取相关页面的数量,并通过与其他算法的实验数据的对比,验证了算法在相关度判断上的效率,提高了主题爬虫的相关网页率,最后给出了需要解决的问题和进一步研究的方向。
其他文献
Ajax技术正处于迅速发展的阶段,它大大扩展了Web应用的能力。但存在一些问题限制了Ajax技术的应用。论文介绍了现有Ajax技术发展现状和问题,仔细分析和总结了Ajax应用设计理论
随着个人计算机的普及和互联网技术的高速发展,流媒体点播系统的应用越来越广泛。流媒体点播技术使用户可以直接从网络中实时连续地下载并播放视频。由于服务器经常因为负荷
当晶体管尺寸接近纳米级别时,量子力学现象在信息处理中起到越来越重要的作用。若这些量子现象包含有限的基态,可以将其抽象为量子电路,一种对常规或“经典”逻辑电路的量子模拟
备件库存管理是企业设备管理中的一项重要组成部分。合理的备件库存对于维持设备的正常运行、促进生产过程的连续性起着重要的作用。为避免因备件短缺而造成的设备停工现象,必
河流相储层在我国石油工业中占有非常重要的地位,由于其横向变化快、储层非均质性严重,很难对其进行定量描述。应用随机游走方法对河流相储层建模,可以充分利用其随机特性和预测
基于视图变形的立体图像对的生成是根据视图变形的基本原理,根据已经获取的立体图像对采用基于图像的绘制的方法得到过渡图像序列,从新的图像序列中选取新的立体图像对以形成新
随着网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,是人们生活的重要组成部分;同时,保护数字产品版权所有者的合法权益的问题也变得越来越重要
工作流技术的不断发展,使其应用领域也不断扩大。科学工作流作为一种有别于传统工作流的工作流类型正成为当前学术界研究的热点。科学工作流为了给科学家提供高效的数据管理和
ICT(Information and Communication Technology)是信息与通信技术相融合而构成的一个新的概念和技术领域,信息服务提供商和电信运营商对发展ICT业务已经达成了共识。在“向
随着企业信息化的普及,业务流程管理系统在企业中的应用越来越广泛,然而,业务环境的动态变化,企业实际业务执行的时间限制给业务流程本身的管理能力,建模能力带来的新的挑战。首先