论文部分内容阅读
这些年来,随着互联网的发展,尤其是智能手机和各种物联网设备的加入,互联网中的数据量也迎来了爆发式的增长。如此巨量的信息一方面丰富和方便了人们的生活,但另一方面也增加了获取有效信息的难度。因此采用主题爬虫技术方便快捷地收集注塑行业的相关信息,从而实现对注塑行业发展的监控和预测,对于企业发展有着重要意义。本文来源于《大型注塑成型智能制造工厂》,设计和实现了能够定向抓取网络数据的主题爬虫系统。通过阅读大量的国内外文献资料,然后结合项目实际中遇到的问题,对主题爬虫以及技术框架有了一定的了解和认识,发现一些对于主题爬虫的研究中所存在的问题:1)目前还没有对于如何选取适当的初始种子的研究;2)主题爬虫的性能和召回率仍有提高空间,需要进一步研究。针对上面提出的几个问题,通过进一步的实践研究,本文给出了一些新的解决方法,并以此为基础,设计实现了主题爬虫系统。在论文后面,利用多个实验表明了本文改进算法的效果。本文的创新点有以下几个:(1)在介绍了初始种子的选取问题后,在HITS算法的基础上,提出了一种新的改进,以此来更方便高效的选取初始种子。在本文中,结合HITS算法定义的权威度和中心度,通过它们来描述链接之间的连接情况,并定义了一个能够计算候选种子好坏的公式,从而选取更好的初始种子,提高主题爬虫的效率。在论文最后也给出了系统的采集结果,证明了算法改进的效果。(2)主题爬虫通常采用概念背景图来作为爬行策略,针对这种策略的缺点,本文给出了一种改进方法——基于综合价值的概念背景图的爬行策略。针对概念背景图的构建过程,给出了一种改进方法。与此同时,将经常被忽略的父网页、链接上下文等因素纳入了综合考虑,定义了一种能够预测待访问链接价值的公式,以此来提前预测链接价值,剔除无关链接,加快爬虫运行速率。在最后,给出相关实验数据,表明了采用改进后的爬行策略的主题爬虫,无论是速度还是精准度都有很大提升。(3)结合前两点,设计实现完整的主题爬虫系统。本文介绍了系统中关键模块的设计实现方案,并设计了相应的数据库方案,利用Java中的爬虫框架WebMagic实现了爬虫系统。该爬虫系统具有一定的通用性,初始种子选取策略的改进减少了大量的人工时间,爬行策略的改进提高了系统的速度和准确度。在最后,给出系统运行结果也表明爬行效率有显著的提升。