基于统计机器翻译与主题传播的聚焦爬虫的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户：woshixiaomihu

【摘要】

：

搜索引擎的发展使得互联网的使用变得更加便捷。人们通过搜索引擎,可以方便地从互联网上搜索到各行各业的相关信息。互联网的数据规模可以用海量形容,而现在的搜索引擎只收录

【作者】

：

甘锡云

【出处】

：

浙江大学

【发表日期】

：

2013年期

【关键词】

：

聚焦爬虫锚文本统计机器翻译主题传播主题相关度预测文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索引擎的发展使得互联网的使用变得更加便捷。人们通过搜索引擎,可以方便地从互联网上搜索到各行各业的相关信息。互联网的数据规模可以用海量形容,而现在的搜索引擎只收录了互联网所有资源中的一部分。爬虫是搜索引擎中一个重要部分,对于搜索引擎有着至关重要的作用。如何在有限的资源情况下爬取更多与人们感兴趣内容相关的网页,成为工业界和学术界的热门话题,聚焦爬虫也因此应运而生。本文的主要研究内容是基于统计机器翻译的锚文本主题相关度预测与基于网页主题传播的聚焦爬虫算法及其实现。一般情况下锚文本较短,在大多现有使用锚文本的聚焦爬虫中,都对锚文本进行了上下文扩展。然而对于一个与主题不相关的锚文本,在上下文扩展之后可能引入与主题相关的内容。本文将锚文本与主题之间的关系视为噪声信道中信息编码的过程,进而提出了基于统计机器翻译的锚文本主题相关度预测算法。然而仅仅使用锚文本这样的网页内容,很可能会丢掉一些虽然与主题不相关但是却包含大量与主题相关外链的网页。使用网页链接结构分析是解决上述问题的一个方法。本文在前人工作的基础上,提出了基于网页主题传播的聚焦爬虫算法,并将锚文本主题相关度预测算法融入到网页主题传播模型中,旨在提高聚焦爬虫的效果。本文最终设计并实现了一个聚焦爬虫系统原型,从互联网上爬取大量的特定主题数据,并将本文提出的算法与一些经典的聚焦爬取算法作了分析与比较。实验结果表明本文提出的算法具有更好的效果。

其他文献

半导体器件1/f噪声概率模型与谱估计问题研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

半导体器件1/f噪声谱估计alpha稳定分布线性模型参数估计

谈数学中的辩证法

运用唯物主义观点 ,阐述了数学发展过程、数学学科本身、数学同其他学科之间的辩证关系 ,以及数学方法所反映的科学技术方法论规律 ,充分论证了数学中的辩证法

期刊

数学辩证法对立统一规律联系与发展数学方法

茶树油粕中茶皂素的提取及其对果蔬采后致病菌的抑制作用

以从茶树油粕中提取茶皂素的得率为评价指标,研究提取溶剂、方法、时间、温度和料液比等因素对茶皂素得率的影响,并通过正交试验确定茶皂素最佳提取工艺条件,同时考察了所得

期刊