论文部分内容阅读
随着互联网的快速发展,人们对于海量数据的发掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计,2011年全球产生的数据量高达1.82ZB。与此同时,由于蛋白质测序技术、基因测序技术的突破更一步促进了生命科学领域数据的飞速增长。生命科学领域的数据已经达到了惊人的地步,相关医学文献的数据资源也随之暴涨。但是,医学研究者和医疗工作者对于医疗文献的利用有缺陷,无法发挥文献最大价值,因此,对于医疗文献数据的爬虫和分析具有非常重要的价值。本文先研究了网络爬虫的基本原理,网络爬虫的分类和网页分析算法。对于反爬虫,分布式爬虫框架Scrapy和动态网页抓取技术进行了介绍,由此提出了 Scrapy-Redis-Selenium+PhantomJS的分布式爬虫框架来实现对于PubMeb网站的爬虫系统。系统主要实现相关主题文献的标题和摘要的数据提取。最后为了方便于用户使用,提出用Qt开发框架来实现爬虫系统的UI界面,使得用户能够更加方便的操作使用爬虫。最后,对本文进行了总结,提出了进一步优化的方向。总之,本文的主要在于设计实现基于生物医学数据的分布式爬虫,该系统开发过程容易,扩展方便。系统设计和实现解决了以往爬虫对动态网页支持的问题,同时信息采集速度得到了提高。为PubMeb网页的分布式爬虫提供了技术手段,能够更好的获取相关医学文献数据。