基于生物医学文献数据的分布式爬虫项目设计与实现

来源 :宁夏大学 | 被引量 : 0次 | 上传用户：bccom

【摘要】

：

随着互联网的快速发展,人们对于海量数据的发掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计,2011年全球产生的数据量高达1.82ZB。与

【作者】

：

高扬

【出处】

：

宁夏大学

【发表日期】

：

2017年期

【关键词】

：

生物医学 PubMeb Scrapy-Redis 爬虫分布式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展,人们对于海量数据的发掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计,2011年全球产生的数据量高达1.82ZB。与此同时,由于蛋白质测序技术、基因测序技术的突破更一步促进了生命科学领域数据的飞速增长。生命科学领域的数据已经达到了惊人的地步,相关医学文献的数据资源也随之暴涨。但是,医学研究者和医疗工作者对于医疗文献的利用有缺陷,无法发挥文献最大价值,因此,对于医疗文献数据的爬虫和分析具有非常重要的价值。本文先研究了网络爬虫的基本原理,网络爬虫的分类和网页分析算法。对于反爬虫,分布式爬虫框架Scrapy和动态网页抓取技术进行了介绍,由此提出了 Scrapy-Redis-Selenium+PhantomJS的分布式爬虫框架来实现对于PubMeb网站的爬虫系统。系统主要实现相关主题文献的标题和摘要的数据提取。最后为了方便于用户使用,提出用Qt开发框架来实现爬虫系统的UI界面,使得用户能够更加方便的操作使用爬虫。最后,对本文进行了总结,提出了进一步优化的方向。总之,本文的主要在于设计实现基于生物医学数据的分布式爬虫,该系统开发过程容易,扩展方便。系统设计和实现解决了以往爬虫对动态网页支持的问题,同时信息采集速度得到了提高。为PubMeb网页的分布式爬虫提供了技术手段,能够更好的获取相关医学文献数据。

其他文献

美国荷斯坦协会TPI计算公式最新解读

<正>TPI代表生产性能、体型、生产寿命和繁殖力等性状综合为一个数值的指数,即总性能指数。TPI值越大代表该牛的综合遗传性能越好。美国荷斯坦协会最新发布的8月份公牛后测成

期刊

乳房性状TPI

河北省城市交通碳排放量及影响因素研究

低碳交通是一种高能效、低能耗、低排放、低污染的新型交通发展模式。首先分析了河北省城市交通碳排放现状。在此基础上，计算出了1991—2012年间河北省城市交通的碳排放量，分析

期刊

碳排放量低碳交通影响因素河北省

贝母栽培技术

<正> 贝母是一种名贵的中药材,主治烦热、消痰、润肺、止咳等。贝母是中药配方的常规用药,同时还可以贝母为主要原料制成多种制剂的中成药。近年来品种增加,销量上升,因此需

期刊

种子繁殖地上部

BP神经网络法在高压LDMOS器件设计中的应用

利用一个3×5×1的3层BP神经网络结构对高压LDMOS的器件性能进行优化设计。将3个重要的工艺参数n-drift层注入剂量、p-top层注入剂量和p-top层长度作为网络的输入,LDMOS击穿

期刊

高压横向扩散金属氧化物半导体优化反向传播神经网络

蛇形微通道气液两相流型的数值研究

采用CLSVOF（coupled level set and volume of fluid）方法,以空气和水为介质对矩形截面蛇形微通道内气液两相流动进行模拟研究。验证模型的合理性后,系统地研究了表面张力,液相

期刊

蛇形微通道气液两相流数值模拟流型微流体学serpentine microchannels gas-liquid flow numerical simu

微孔分散轮盘塔净化湿法磷酸的实验研究

在设计的新型微孔分散轮盘塔中,采用微孔分散技术对萃取过程进行强化传质,以磷酸/水/TBP＋煤油为实验体系,研究了该萃取设备净化湿法磷酸的萃取特性。考察了孔径为75μm的微孔

期刊

微孔分散萃取塔净化湿法磷酸磷酸三丁酯TBPmicropore dispersion extraction column purification we

基于生物医学文献数据的分布式爬虫项目设计与实现

其他学术论文