基于蚁群算法的主题爬虫技术研究与实现

来源 :成都理工大学 | 被引量 : 16次 | 上传用户:lgmdjsb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的发展彻底改变了人们的思维、生活与习惯。一方面,它使我们更容易获取各种各样的信息,而另一方面,要想在数十亿网页的网络信息中精确地找到自己需要的信息如“大海捞针”一般。搜索引擎的产生彻底改变了人们的生活方式,使人们能从信息海洋中迅速找到想要找的信息。但随着互联网中信息的日益增多,以及网络、存储和计算等资源的有限性,传统的搜索技术已经逐渐难以满足人们的需求,其局限性日益突出。因此,人们迫切需要一种更智能、更精确、更专业的搜索技术,将网上的信息更好地展现出来。这时便产生了垂直搜索引擎,它被作为解决传统搜索引擎局限性的一种潜在方案。垂直搜索引擎是信息检索的发展趋势,其核心——主题爬虫技术已成为当前研究的热点之一。主题爬虫就是遍历Web,但有选择的爬行与特定主题相关的网页,并避免爬行非相关网页。利用主题爬虫技术把搜索的范围缩小到Web的一部分,并有选择的爬行特定领域(或主题)的网页,建立面向主题的垂直搜索引擎。因此,主题爬虫在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的实时性。本文首先介绍了搜索引擎的基础理论,引出垂直搜索引擎;其次对主题爬虫技术理论进行了研究,重点研究了超链接分析技术PageRank算法、主题爬虫技术相关概念等知识;最后对蚁群算法指导主题爬虫的相关理论进行了深入分析,其中重点分析了蚁群算法并用Java语言将其实现,紧接着分析了服务器日志以及对Web日志的挖掘。目前主题爬虫搜索策略的主要困难在于:(1)主题爬虫对Web搜索空间中信息资源的整体分布是未知的,不能很好地预测爬行方向。(2)现阶段的主题爬虫思想大多通过分析锚文本以及链接内容的主题相关性的策略来指导爬虫爬行,不具有“启发性”指导策略。(3)为了优先爬行高质量的相关网页,研究者们设计了许多启发策略和相关算法,虽然目前出现的“启发式”搜索策略可以借助某些领域知识对信息资源的分布情况做出某种程度的估计,据此推断出大致的搜索方向,但是这种方法的计算量大、时空复杂度高,目前也没有找到很合适的学习算法来指导训练过程。本文提出了一种基于蚁群算法的主题爬虫技术,从Web日志信息中挖掘出群体用户的浏览路径,从而能“启发性”的指导主题爬虫。最后,通过实验实现了一个主题爬虫,比较了基于蚁群算法的主题爬虫和传统的主题爬虫两者的不同,得出结论基于蚁群算法的主题爬虫技术能够更好地指导主题爬虫。
其他文献
二十世纪末期,特殊教育的主体是听觉障碍儿童,然而进入到二十一世纪后,听觉障碍儿童的数量逐渐减少,取而代之的是越来越多的智力障碍儿童。智力障碍只是一个笼统的概念词,智
辊式淬火机是中厚板热处理生产线关键的工艺设备。本论文以太原钢铁集团临汾钢铁有限公司中厚板热处理生产线辊式淬火机项目为背景,针对辊式淬火机淬火过程的温度场和钢板淬
“谐”,是康巴藏区广泛流传的具有“草根文化”特点的歌舞艺术,以优美的旋律,随意性、即兴性的表演受到群众的喜爱。因牛角胡是其主要的伴奏乐器,汉语称其为“弦子”或“弦子
目前,沥青路面多数采用的仍是传统的普通热拌沥青混合料HMA(Hot Mix Asphalt)。HMA的拌和与施工温度要求很高,在生产过程中需要将沥青和集料加热到很高的温度。这样不仅会消