Web Archive 工作收集策略中存在的问题及改进思考

来源 :档案天地 | 被引量 : 0次 | 上传用户:hrmcttkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、引言
  在互联网上,每天都有无数新的信息的出现,同时也有无数旧的信息在消失。网络信息虽然增长速度飞快,其消失的速度也超出人们的想象。一些相关机构和学者的估计也能在某个程度上说明这个问题:据互联网档案馆(Internet Archive)估计,网页的平均寿命只有100天;亚马逊公司旗下的Alexa网站曾经估计,网页的平均寿命为75天;美国的NDIIPP项目人员则估计,网络信息的平均寿命只有44天。一些关于时事新闻的信息,其消失的速度更加惊人。表1是2018年1月中国互联网络信息中心发布的《第41次中国互联网统计报告》中对于我国网页更新情况的统计,从该表可以看出,超过3成的网页更新周期在三个月以内。
  Web作为全球最大的信息资源库,其包含的信息对于对文化遗产保存、学术研究、社会经济的发展都具有十分重要的意义,但由于Web 信息的产生是自发的,而其消失又十分迅速,使网络信息资源既珍贵又脆弱。因此,对Web进行保存具有十分重要的意义,但是在我国,不论是与传统的信息资源保存相比,还是与国外的网络信息资源保存相比,Web Archive都没有引起足够的重视。
  1996年,美国一个非营利性组织启动了Internet Archive项目,澳大利亚图书馆启动PANDORA项目;1997年,美国国会图书馆启动Minerva项目,丹麦、挪威、芬兰、冰岛和瑞典五个北欧国家的国家图书馆联合启动Nodic Web Archive项目;1999年,法国国家图书馆启动了BnF Web Archive项目,英国国家图书馆启动了UKWAC项目;日本、新加坡等国也在2005年以前启动了国家层面的Web Archive项目。
  我国最早的Web Archive项目是2002年由北京大学启动的Informall项目;国家图书馆于2003年初启动了网络信息资源采集与保存试验项目(WICP),2009年国家图书馆互联网信息资源保存保护中心成立。中国人民大学也在2011年成立了“互联网数据信息海量存贮与智能服务中心”,其研究主要分为三个层面,第一个层面是互联网海量信息的组织、存储与管理技术,第二个层面是海量WEB数据的分析与挖掘,海量知识库管理等,第三个层面是面向社会科学用户的交互式分析决策平台。
  國内对于Web Archive的研究,主要包括从宏观上介绍整个Web Archive工作的概念,从微观上介绍Web Archive工作的某一个环节,或者是介绍了国外的发展现状。在收集策略方面,国内的研究主要包括以下几个方面。第一,认为收集策略对于Web Archive工作具有基础性的重要作用。第二,不同的收集策略有不同优缺点。第三,收集策略必须要有科学的收集原则。
  国外对于Web Archive的研究内容相对丰富,在很多方面对我国具有重要的借鉴作用。澳大利亚学者Edgar Crook认为,Web 2.0时代给Web Archive工作带来了新的技术上的挑战,图书馆必须学会适应并对未来做好计划,修改其收集的范围,并与其他保存机构进行合作,以保证这项重要工作的可持续发展。芬兰学者Juha Hakala主张对Web Archive工作收集的网络信息进行元数据标引,建立索引,以提供给终端用户使用。
  Web Archive工作的责任体系、收集策略和资金支持三个方面是有机统一的,共同形成了Web Archive工作的运作机制,如图1所示。从图中可以看出,国家图书馆、各级图书馆和各级档案馆承担着网络信息资源长期保存的责任,在Web Archive工作中处于中心地位,是Web Archive工作的主力军。而长期保存的必要前提则是短期保存,短期保存的责任者主要包括网络信息资源的生产者和出版者。辅助保存是长期保存的重要补充,其责任者包括商业公司、各组织机构的网络技术部门和其他机构。而这些保存责任方都受到来自政府的统一规划和指导,政府处于Web Archive工作的领导者的地位,一方面为Web Archive工作提供必不可少的经费支持,另一方面也为Web Archive工作提供法律规范、政策支持和对公众的宣传教育等等。
  网络信息资源的收集是Web Archive工作的第一步,也是十分重要的一步。在网络信息资源的收集过程中,可以采用多种收集策略。收集策略的不同,会直接影响到Web Archive信息的质量和价值,以及Web Archive工作的成本。按照不同的分类标准,收集策略的分类也不相同。按照信息的收集方式,网络信息资源的收集模型可以分为推送模型和拉取模型。按照信息的收集范围,网络信息资源的收集策略可以分为全面性收集策略和选择性收集策略。
  二、Web Archive收集策略存在的问题
  1.全面性收集策略存在的问题
  (1)更新周期长,不能做到真正意义上的全面性收集
  对于印刷型出版物来说,主要是那些连续出版物,比如期刊、报纸存在着连续收集的问题,由于连续出版物的更新周期比较固定,比如,期刊的更新周期可能是一个月、半个月等等,而报纸的更新周期一般是一天,因此收集周期就很容易确定。而网络信息的收集周期则很难确定。理论上讲,收集周期应该同网络信息的变化更新周期相一致,只要网络信息进行了更新,就应该对该次更新进行收集。但实际上,网络信息的更新变化规律十分复杂,难以找寻,有的六个月甚至更久都不更新一次,有的一两个月更新一次,更有的一星期甚至一天更新一次。对于全面性收集策略来说,由于收集的范围宽,对象多,一次收集所需的时间长,因此收集的周期一般设置得比较长。
  世界上主要的Web Archive项目都以年作为网络信息资源的收集周期,每年对网络信息资源进行n次收集(n
其他文献
目的比较人胚胎骨髓间充质干细胞(MSC)和单个核细胞(MNC)经静脉移植后对脑梗死的疗效。方法采用大脑中动脉远端凝断法制造大鼠脑梗死模型。将大鼠分为假手术组、缺血对照组(造模后
中药重楼主产于我国云南,具有清热解毒、消肿止痛、凉肝定惊之功效,其化学成分复杂,市售重楼药材质量差异较大。为加强重楼药材的质量控制,更好的开发利用重楼资源,现将近年
水果有其自身的营养特点,是人类食物结构中的一个重要组成部分。建国以来,我国居民的水果消费虽然经历了40多年的加速增长,但目前的消费水平与营养学家的建议及世界平均水平还有相
相传大禹治水来到大越的时候(令浙江绍兴)为了继续更好地治理洪水,决定在茅山召集各地诸侯计功封爵,并商讨今后治水的良策。
目的了解妊娠16~20周超声检查发现的胎儿畸形种类以及子宫附件、胎儿附属物异常检出情况。方法对孕16~20周于2015—2017年在本中心进行彩色多普勒超声检查的6303例孕妇的检查
金融资源的注入可提升技术创新效率,但技术本身的“黑箱”所带来的投、融资主体间信息不对称,会拉长金融资源进入科技领域的犹豫期,降低整个技术创新领域的市场转化效率。风
目的探讨多位点序列分型(MLST)技术在新疆人间布鲁氏菌病分离株遗传进化研究中的应用价值,了解分离株的种群结构和遗传进化关系。方法采用MLST对2015、2016年分离自新疆7个地