【摘 要】
:
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困
【机 构】
:
山东理工大学档案馆,山东理工大学科技信息研究所
【基金项目】
:
山东省高等学校青创科技支持计划“科技大数据驱动的智慧决策支持创新团队——面向新旧动能转换的新兴科学研究前沿识别研究”(2019RWG033)
论文部分内容阅读
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出了一种基于OutbackCDX和UKWA-Heritrix增量采集方案,该方案能够在不需要爬虫程序重启的情况下实现定题、增量采集,并以ISO标准格式WARC(Web ARChive)为存储格式,实现不同类型系统直接的数据交换。
其他文献
1997年7月,国际标准化组织ISO和国际电工委员会IEC表决通过了以中国提案为主的藏文编码字符集,此次发布的藏文编码标准是国际标准ISO/IEC10646《我八位编码字符集》的集要组成部分。本文回顾了该标准的
文章研究利用体积比废聚苯乙烯泡沫塑料制备压敏胶液的工艺流程及粘度最大时的配料比和反应条件实验.实验表明:反应温度25℃,配料比废聚苯乙烯泡沫(g):二甲苯(ml):环己酮(ml)
牦牛血清中分离纯化的转铁蛋白对人红细胞膜的抗氧化具有保护作用。方法:采用黄嘌呤/黄嘌呤氧化酶、Fe^2+/H2O2两个体系产生的O2^·-、OH^·对红细胞膜造成氧化损伤,通过
抗战时期国民政府颁行的《特种股份有限公司条例》为国家资本进入更多的投资领域提供了法律依据,也促进了民营资金在国营企业中的投资,同时也有限度地保障了商股在公司中的股
第十世班禅大师班禅额尔德尼·确吉坚赞,是我国伟大的爱国主义者、著名的国务活动家、中国共产党的忠实朋友、中国藏传佛教的杰出领袖。值此纪念十世班禅大师逝世十周年之际,本
高校科技期刊作为高校对外学术交流的窗口,其栏目设置是期刊总体设计的重要组成部分,也是反映期刊内容特色的重要手段,应该受到高校科技期刊编辑人员的重视.首先,编辑人员要
晚清词学家谭献为指导后学填词门径,亲自评点周济《词辨》,示以填词之法。一方面谭献示以词在起句、过片、结句等关键部位之作法。谭献总结出词作起句的以扫为生之法、侧入法
高校非计算机专业学生计算机应用能力的培养和提高应从优化教材内容、强化实践教学、提高教师素质和加强机房建设等方面加以落实.
近代文士姚茫父以曲学称名,工词曲,有《弗堂词》存世。文章从《弗堂词》的步韵情况与美学风格两角度切入《弗堂词》研究,认为《弗堂词》以追摹清真词为主,整体呈现的艺术风格
科技期刊论文的层次标题是除文章题名外的不同级别的分标题,是文内各级小标题,它是论文的内容提纲和结构框架.其作用在于帮助作者厘清思路,安排论文结构,方便读者阅读,便于文献检索