【摘 要】
:
大数据时代的科研竞争是数据之争,高质量数据的获取往往决定着研究结论的优劣乃至项目的成败。然而对于科研人员的Web数据自动抓取问题,学界目前尚未有系统性研究成果出现。
【机 构】
:
华中师范大学信息管理学院,华中师范大学青少年网络心理与行为教育部重点实验室
【基金项目】
:
国家自然科学基金项目“基于用户偏好感知的SaaS服务选择优化研究”(71271099);湖北省自然科学基金创新群体重点项目“基于云计算的知识集成与服务研究”(2011CDA116)的成果之一
论文部分内容阅读
大数据时代的科研竞争是数据之争,高质量数据的获取往往决定着研究结论的优劣乃至项目的成败。然而对于科研人员的Web数据自动抓取问题,学界目前尚未有系统性研究成果出现。本文对数据抓取的基本模式进行分析,归纳出四类科研人员Web数据抓取的基本模式:单站静态抓取模式、跨站静态抓取模式、单站动态抓取模式及跨站动态抓取模式及其技术难点。本文同时也提出了科研人员Web数据自动抓取技术的两种开源解决方案:基于开源爬虫和自行定制爬虫,最后详细探讨了各方案的软件架构并给出了基本代码框架。
其他文献
党的十八大以来,密切党群关系具备了越来越优良的要素协同机遇和条件。习近平新时代中国特色社会主义思想深化了党员干部的公仆定位,树立了新时代密切党群关系的先进典型,健
面对抗战时期极其复杂的国内外局势,党中央和边区政府正确调节不同社会主体间的利益关系,建设民主廉洁、诚信公平的贫民化政府,大力倡导新民主主义道德规范,边区社会呈现出旺
本文的主要目的是评介记忆社会学的主要研究论题。目前主流的观点认为个体记忆的社会维度体现为群体决定了个体回忆什么及如何回忆。在界定了个体记忆与集体记忆的关系后,集
大豆作为我国重要的食品原料和工农业生产资料,同时也是我国在国际贸易中最为重要的大宗货物进口物品之一。对国内的大豆单产进行准确和快速地估计不但有助于加强大豆的生产管理,通过优化种植结构,不断地开发其生产潜力;也有助于政府在国家层面上调整粮食储备计划,同时为科学合理地制定宏观经济计划和粮食政策提供重要的技术支持。此外,大豆单产的准确估计也是对期货市场商品交易进行估价的重要基础,因此在大豆收割前对其单产
文章提出了一种高精度的人机界面系统,以提高驾驶员模拟训练的沉浸感和真实性。利用现有的VR头戴式显示器,驾驶员需要灵活的输入设备,从而准确地跟踪他们的手和手指的运动,由
<正>党的十八届三中全会审议通过的《决定》,明确提出要推行地方各级政府及其工作部门权力清单制度,依法公开权力运行流程,完善党务、政务和各领域办事公开制度,推进决策公开
目的探讨分析固定和不固定腓骨骨折在旋前外旋型Ⅳ度踝关节骨折情况下对胫腓关节损伤情况。方法根据2014年1月—2016年1月我院接收的旋前外旋型Ⅳ度踝关节骨折患者80例来分析
进入21世纪,我国科学技术发展的速度较快,机械自动化技术的应用变得越来越广泛,并且已经成为我国各个行业中最重要的一项技术。其在机械制造中的广泛使用,对我国机械制造行业
北美页岩气藏在储层渗透率低至纳达西的情况下仍能实现有效开发,其核心是增大储层改造体积,用技术体系来表征即为"体积改造技术"。"体积改造技术"强调"打碎"储层,使裂缝壁面
目的分析早期康复运动在重症监护室(intensive care unit,ICU)机械通气患者中的应用价值。方法该研究随机筛选2016年5月—2017年12月该院收治的入住ICU机械通气患者78例,采用