基于统计机器翻译与主题传播的聚焦爬虫的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:woshixiaomihu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎的发展使得互联网的使用变得更加便捷。人们通过搜索引擎,可以方便地从互联网上搜索到各行各业的相关信息。互联网的数据规模可以用海量形容,而现在的搜索引擎只收录了互联网所有资源中的一部分。爬虫是搜索引擎中一个重要部分,对于搜索引擎有着至关重要的作用。如何在有限的资源情况下爬取更多与人们感兴趣内容相关的网页,成为工业界和学术界的热门话题,聚焦爬虫也因此应运而生。本文的主要研究内容是基于统计机器翻译的锚文本主题相关度预测与基于网页主题传播的聚焦爬虫算法及其实现。一般情况下锚文本较短,在大多现有使用锚文本的聚焦爬虫中,都对锚文本进行了上下文扩展。然而对于一个与主题不相关的锚文本,在上下文扩展之后可能引入与主题相关的内容。本文将锚文本与主题之间的关系视为噪声信道中信息编码的过程,进而提出了基于统计机器翻译的锚文本主题相关度预测算法。然而仅仅使用锚文本这样的网页内容,很可能会丢掉一些虽然与主题不相关但是却包含大量与主题相关外链的网页。使用网页链接结构分析是解决上述问题的一个方法。本文在前人工作的基础上,提出了基于网页主题传播的聚焦爬虫算法,并将锚文本主题相关度预测算法融入到网页主题传播模型中,旨在提高聚焦爬虫的效果。本文最终设计并实现了一个聚焦爬虫系统原型,从互联网上爬取大量的特定主题数据,并将本文提出的算法与一些经典的聚焦爬取算法作了分析与比较。实验结果表明本文提出的算法具有更好的效果。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
一、2019年工作总结全面加强党对教育工作的领导,打造了"小手拉大手""党员名师工作室""教育社区"等一批特色党建品牌,市委、市政府组织召开了七台河市庆祝第35个教师节表彰大
运用唯物主义观点 ,阐述了数学发展过程、数学学科本身、数学同其他学科之间的辩证关系 ,以及数学方法所反映的科学技术方法论规律 ,充分论证了数学中的辩证法
以从茶树油粕中提取茶皂素的得率为评价指标,研究提取溶剂、方法、时间、温度和料液比等因素对茶皂素得率的影响,并通过正交试验确定茶皂素最佳提取工艺条件,同时考察了所得
详细分析了自动安平水准仪常见故障产生的原因,并阐述了针对故障的修理方法。
为提高“全三脱”工艺脱磷专用转炉的脱磷效率,基于离子-分子共存理论,建立了脱磷专用转炉渣系磷分配比的热力学模型;将模型计算的磷分配比和现场生产测得的磷分配比进行对比
用系统分析的观点来研究物流活动是现代物流学的核心问题。物流系统分析是指在一定的时间,空间里,对其所从事的物流事物和过程作为一个整体来处理,以系统的观点,系统工程的理
目前我国司法实践中证人拒证的现象比较普遍,尤其是证人拒不出庭作证。因此,研究证人拒绝作证或拒绝出庭作证的原因,并有针对性的提出改进的措施与对策,使案件能够得以公正的