论文部分内容阅读
基金项目:国家社会科学基金项目“社会科学科研数据的管理服务研究”(项目编号:18BTQ070)。
作者简介:王丹丹(1980-),女,教授,博士,研究方向:科研数据管理。任婧媛(1994-),女,硕士研究生,研究方向:科研数据管理。吴思洁(1996-),女,硕士研究生,研究方向:科研数据管理。
摘要:[目的/意义]对德国社会科学数据管理与服务平台SowiDataNet|Datorium进行研究,揭示其特色和成功经验,为我国开发国家层面的社会科学公共数据平台提供参考。[方法/过程]利用文献调研和案例分析方法,以德国为例,通过对文献资料和网站内容的调查,获取一手资料阐述德国社会科学数据管理与服务平台SowiDataNet|Datorium的构建情况、功能与特色以及先进经验。[结果/结论]尽快建立我国国家层面的社会科学公共数据平台,该平台应采取分工协作,协同建设的方式;应考虑将机构用户作为重要服务对象,提供面向机构的服务;应通过完善数据标准和规范审核流程的方式加强对数据质量的控制;应考虑提供灵活的数据访问权限选择,并适当降低使用门槛,以在最初阶段最大程度地推动平台的使用。
关键词:社会科学;科研数据;科学数据管理;数据平台;德国
DOI:10.3969/j.issn.1008-0821.2020.11.010
〔中图分类号〕G25074〔文献标识码〕A〔文章编号〕1008-0821(2020)11-0099-08
Research on Social Science Data Management and Service Platform
——The Experience of German
Wang DandanRen JingyuanWu Sijie
(College of Management,Henan University of Science and Technology,Luoyang 471023,China)
Abstract:[Purpose/Significance]Research on the German social science data management and service platform SowiDataNet|Datorium,to reveal its characteristics and successful experience,and provide a reference for China to develop a national-level social science public research data repository.[Method/Process]Using literature research and case analysis methods,taking Germany as an example,through the investigation of literature and website content,obtained the first-hand information to explain the construction,functions and characteristics of SowiDataNet|Datorium and advanced experience.[Result/Conclusion]A national-level social science public research data repository should be established as soon as possible in China.The repository should take the form of division of labor,collaboration and collaborative construction;at the same time,should consider institutional users as important service targets,provide agency-oriented services;provide more flexible data access permission options and lower the use threshold appropriately to maximize the use of the platform in the initial stage.
Key words:social science;research data;scientific data management;data platform;German
社會科学科研数据主要集中在社会、经济领域。社会科学数据管理与服务平台对于切实改变传统的科研数据私有观念,打破信息壁垒,实现科研数据的合理流通和最大限度地共享起着举足轻重的作用[1]。欧美主流的社会科学数据研究机构,均构建了社会科学科研数据平台开展科研数据管理并提供服务[2]。近年来,国内的一些机构和高校也逐渐认识到社会科学数据管理与服务平台构建的重要性,并逐步开展这方面的实践。出现了复旦大学社会科学数据平台、北京大学开放研究数据平台、中国人民大学中国国家调查数据库、湖南大学经济数据研究中心等机构层面的平台。但整体而言,处于起步探索阶段,平台功能远不够完善,国家层面面向社会科学学科领域的公共数据平台尚未出现,由于缺乏技术和服务支撑,大部分高校和科研机构的社会科学科研数据缺乏应有的重视,处于流失状态。
德国是世界主要经济强国之一,是欧盟国家中重视信息化建设、信息化程度较高的国家之一,也是开放获取思想和倡议的发起者及实践先驱之一[3]。作为欧洲开放科学云(EOSC)计划的主要参与者和推动者,一直负责通用数据基础设施建设工作。2014年,在全面收集和分析科研机构的需求后,由德国莱布尼茨学会资助,莱布尼茨社会科学研究所、莱布尼茨经济学信息中心、柏林社会科学中心和德国经济研究所合作开发了社会科学科研数据平台SowiDataNet|Datorium,它是面向具体学科领域的国家层面的公共数据平台,目标是支持实现德国社会经济学领域科研数据的统一存储、安全归档和集中获取[4]。鉴于此,对SowiDataNet|Datorium进行全面的调研和分析,将国内5个平台与SowiDataNet|Datorium进行对比,总结SowiDataNet|Datorium的特色与经验,为我国构建国家层面的社会科学公共数据平台提供启发和参考。 11平台简介
SowiDataNet(https://sowidatanet.de/)项目重点是集中和共享德国社会经济科学领域的科研数据,其核心是SowiDataNet|Datorium,一个基于Web的科研数据平台,通过与德国社会科学领域最大的基础设施提供商GESIS合作,为社会经济科学领域科研数据的交流和长期获取创造一个稳定环境,其目的是:1)为科研机构、科研人员个人和期刊提供科研数据基础架构;2)汇集不同来源和数据提供者的科研数据;3)确保安全的数据存储和对数据的集中访问;4)促进德国数据共享文化;5)通过简化数据共享过程,加强有关数据管理的知识,减少数据共享的不便性[5]。该平台有3类用户:一是科研人员。社会和经济科学领域的科研人员被邀请作为数据存储者,将定量数据、代码、元数据和其他相关文档上载到平台库中,并建立与相关出版物的链接。通过选择访问类别和许可,存储者可以确定数据获取条件;二是数据用户。对于有兴趣重复使用数据的数据用户,SowiDataNet|Datorium提供了便捷的搜索功能。三是科研机构。对于没有机构自己的数据基础设施用于归档和发布科研数据的机构,SowiDataNet|Datorium提出了面向机构科研数据管理的工作流程,并提供了可靠的数据出版平台。但是,使用SowiDataNet|Datorium来管理和发布科研数据的机构需要与GESIS签订合同。
SowiDataNet|Datorium的开发借鉴了GESIS数据共享平台Datorium的开发经验。Datorium专注于社会科学科研人员个人的数据。在Datorium中,科研人员可以自行记录、共享、管理和发布其数据,使数据可见并可用[6]。SowiDataNet|Datorium则专注于机构的数据,解决德国只有少数科研机构能够使用自己的资源来构建可持续运行的科研数据基础架构这一问题,它特别强调平台与机构科研数据管理实际工作流之间的灵活衔接,強调要考虑经济科学领域和科学机构的特殊需求。为此,SowiDataNet|Datorium调整了Datorium所有的工作流程、元数据字段、受控词表以及数据监管过程等,还增加了数据版本控制。GESIS致力于整合Datorium和SowiDataNet,目前SowiDataNet|Datorium已被集成到GESIS的存储和发布服务中。
12数据服务
121数据存储者
SowiDataNet对“科研数据”进行了广泛定义以涵盖各种数据类型。平台中可能包含由实证研究工具新生成的一次数据和从现有信息中推断出的二次数据,可以整合一次数据和二次数据,以及用于数据转换和分析的程序或脚本。此外,还可以提供便于以后使用数据的文档(如问卷、代码簿或技术报告)。要将数据提交到SowiDataNet|Datorium中,数据存储者首先必须注册,并在注册表格中输入地址和与机构的隶属关系。注册完成后即可在SowiDataNet|Datorium中上传和存储数据,数据发布之前,GESIS的负责人将对其进行审查。如果存储者所属机构与GESIS签订了SowiDataNet|Datorium的使用合同,那么SowiDataNet|Datorium会将数据同步分配给机构,由机构管理员进行审查。具体步骤是:
第一步,科研人员建立新的数据项目,上传数据,附上问卷、代码本或语法文件,并使用标准化元数据进行描述。在编辑过程中,可以使用评论功能记录未解决的问题和开放问题,评论内容会及时转发给管理者。一旦完成数据上传,数据就会被转移到机构数据池中。第二步,机构管理员访问数据池,选择项目进行内容审查。管理员会根据正式标准(即可读性、完整性、数据保护规定和正确描述)检查数据、元数据和文档。如必要,管理员在与相关科研人员讨论并达成一致后可修改或更正文件。SowiDataNet|Datorium提供了一个标准化的检查表来帮助机构数据管理员审查所提交的数据(如图1)。未来,计划开发面向特定科研机构的检查表。第三步,机构完成审查后,管理员把数据发送给GESIS,由GESIS的管理员进行再审查,通过后,注册服务da|ra为数据分配DOI,并使数据及其元数据在da|ra、DataCite元数据门户以及所有利用元数据收割的服务(如OAI-PMH)中均可见,且能与re3data.org和OpenAIRE等集成。
提交的数据存放在SowiDataNet|Datorium中。SowiDataNet|Datorium运营期间,会保证对所有数据和元数据物理保存至少10年。如有需要,可延长保存期,或将数据存入GESIS数据档案库中长期保存。与GESIS数据档案库的集成极大地提高了长期有效存储科研数据的可能性,当科研人员或内部人员跨机构流动时,科研数据仍能以一种用户可理解和重用的格式集中记录和保存,即使没有数据提供者或内部人员的支持,在以后也可以追溯和使用数据。如果SowiDataNet|Datorium停止运营,数据、元数据和其他材料将会被纳入GESIS社会科学数据档案库,并按照协议维护和重用。所有文件都会与校验和一起存储,数据管理者会定期检查这些校验和以确保对应文件没有任何更改,数据集和元数据每天都会进行备份,并将备份存放在不同的位置。
发布数据时,数据存储者可以设定访问级别,包括:1)免费获取(无需注册);2)免费获取(需要注册);3)受限获取。当数据使用者尝试下载数据时,SowiDataNet|Datorium将生成电子邮件表格。数据使用者需填写此表格,向管理员请求获取数据。协商后,管理员将批准用户获取数据;4)时滞期。对于那些不想让他人立即获得其数据的存储者,可以设置时滞期,最长2年。元数据会立即发布,但数据本身仅在时滞期结束后方可使用。时滞期结束时,上传的数据将自动出版,以供免费或受限获取。
在“我的提交”中,数据存储者可以看到所有提交数据的状态:1)未完成。这是尚未提交审核的草稿,可以访问,继续编辑,直到提交。2)审阅。这是机构管理员或GESIS管理员正在审核的已提交数据项目,无法再编辑。审核通过后,数据将在SowiDataNet|Datorium中发布,并被分配DOI。存储者及其机构将收到电子邮件通知。3)已发布。这是在SowiDataNet|Datorium中已发布数据的列表。如需对数据、元数据或文档进行更改,则必须与GESIS的SowiDataNet|Datorium团队联系。任何更改都必须在出版之前进行审核。 122数据用户
SowiDataNet|Datorium为社会和经济科研数据提供了统一访问入口,数据用户能够使用元数据进行研究,使用数据进行重新分析或开始新的科研项目。数据用户可以通过两种方式搜索合适的科研数据:一是在起始页上的搜索框中输入关键字;二是通过单击顶部导航中的“Show All Data”按钮开始浏览整个馆藏。要缩小结果范围,则使用结果页面上提供的过滤器。如果在搜索结果中找到了感兴趣的记录,可以单击标题获取详细的记录说明和下载选项。
123科研机构
除了面向数据存储者和数据用户的免费服务外,SowiDataNet|Datorium还可以与研究生院、特殊研究领域(德国合作研究中心)或实验室直接对接,SowiDataNet|Datorium为与GESIS签订合同的机构提供额外的收费服务,标准见表1。其中包括:
1)进入监管区,机构的管理者可以对机构员工提交的数据进行初步审查。
2)提供导出机构研究和元数据以在机构网页上展示的技术手段。
3)提供机构出版的科研数据的统计报告下载。
4)为机构使用SowiDataNet|Datorium提供支持。
机构通过SowiDataNet|Datorium提供的预定义角色——机构管理员,可将SowiDataNet|Datorium集成到机构科研数据管理工作流程中。在项目开始时,机构管理员告知科研人员可以进行数据管理和出版,向科研人员说明数据的时滞期、与数据准备或数据文件有效处理相关的要求等,以避免在项目的最后阶段工作量过大。在项目进行中,SowiDataNet|Datorium对机构数据进行管理,支持数据版本控制并为内部和外部报告提供信息[8]。
2SowiDataNet|Datorium的特色与启示
21分工合作、协同建设
目前,我国的社会科学数据平台主要是由国家投入资金,高校主持建设或高校联合各部门自主建设,多为机构独立建设,缺乏国家层面的统筹管理。平台建设的经费也主要是国家财政支持,很少有社会组织或专业学会的资助,资金来源比较单一。如表2。
平台主题领域建设时间与建设主体资金来源
复旦大学社会科学数据平台社会经济、地球与环境科学、计算机与信息科学、其他2013年,复旦大学社会科学数据研究中心985项目资助
北京大学开放研究数据平台社会科学、计算机与信息科学、生命科学、地球与环境科学、其他2015年,北京大学图书馆、管理科学数据中心、科研部、社科部国家自然科学基金
武汉大学高校科学数据共享平台社会学、生命科学2012年,武汉大学图书馆、CALIS科研数据管理项目组教育部专项资金
中国人民大学中国国家调查数据库社会、经济、教育、健康2009年,中国人民大学中国调查与数据中心、中国政府统计研究院国家自然科学基金
湖南大学经济数据研究中心社会、经济管理2013年,湖南大学经济与贸易学院本校资助
與国内平台的建设模式不同,作为国家层面推动建设的项目,SowiDataNet|Datorium采用的是跨机构分工合作和协同建设的方式,保证了平台技术的可靠性(安全运行和及时更新维护),同时确保科研数据收集的专业性和高质量。SowiDataNet项目是由德国莱布尼茨学会(Leibniz-Gemeinschaft)资助,莱布尼茨社会科学研究所(GESIS)、莱布尼茨经济学信息中心(Leibniz Information Centre for Economics,ZBW),柏林社会科学中心(Berlin Social Science Center,WZB)、德国经济研究所(German Institute for Economic Research,DIW)合作建设的。鉴于GESIS和ZBW在基础设施建设方面丰富的经验,由GESIS和ZBW负责基础设施的开发,而由专注于社会经济研究的WZB和DIW负责相关的研究工作。作为国家层面的公共数据平台,SowiDataNet|Datorium为没有自己数据基础设施的机构和科研人员提供了安全记录、持久存储和共享科研数据的平台,为数据用户提供了丰富的数据资源和统一的检索入口;使得制
定共同标准对德国社会和经济科学科研数据存档和记录得以实现,通过最终链接到GESIS数据档案库,确保了社会和经济科学科研数据的长期保存。与此同时,通过提供收费服务来收取资金,维持持续运营,减轻了国家的财政负担。
22服务对象多元化,关注机构用户
国内已有的社会科学数据平台都属于机构平台,主要为本机构的科研人员服务,以收集本机构科研人员的数据为主,数据是直接存储在本地(见表3)。很少有平台对外开放,供其他机构和科研人员存储和出版数据。各平台独立存储,单独维护,标准不一,用户要使用数据,就必须访问多个平台,这给数据用户带来了不便,一定程度上阻碍了数据共享[9]。SowiDataNet|Datoriu则是将机构用户作为平台的一类重要用户,突出面向机构的服务功能,解决只有少数机构能够使用自己的资源构建并长期运营数据平台这一问题,让尽可能多的机构能够很容易借助SowiDataNet|Datorium,实现机构自己的数据管理和服务。
与国内平台的服务模式不同,SowiDataNet|Datoriu除了为数据提供者和用户提供服务外,还专门针对机构提供付费服务。SowiDataNet|Datorium支持机构系统地存档其科研成果,并及时提供给科学界使用。SowiDataNet提供了一个附加模块,使机构可以将存储在SowiDataNet|Datorium中的
科研数据集成到机构自己的网站中展示并使其可搜索。展示窗口Showcase可以进行个性化设计。通过Showcase,Sowidatanet为机构提供了自己的前端,搜索功能与Sowidatanet主页上的搜索功能一一对应(自由文本搜索和分面过滤)。只是搜索范围仅限于机构自己的数据馆藏。Showcase和SowiDataNet之间的信息交换是通过REST API进行的。因此,元数据和数据本身都可以直接从Showcase中获取。Showcase可以作为一个中心Web服务由Sowidatanet托管,此时Showcase通过iFrame集成到机构网站中,但可以作为科研机构主页的独立子页面调用(如图2)。上述两种情况,机构均可以通过改写CSS文件(如,通过合并徽标或调整颜色和字体)来自定义视图,也可以选择在机构的服务器上执行本地安装,并根据需要调整源代码。 23重视数据质量,启动二级审核
国内的平台中只有中国人民大学中国国家调查数据库和湖南经济数据研究中心提到了数据清洗,其它平台均未提到数据质量检查。中国人民大学中国国家调查数据库收集的主要是社会调查数据,所以其数据清洗主要是对调查问卷的检查,具体项目包括:1)问卷数据的单变量非法值检查(含连续变量的不合理值检查);2)问卷数据的逻辑检查,包括跳答题的检查,复选题的检查,偏好次序题的检查;3)依据问卷问题之间的关联性,做逻辑检查;4)问卷数据的开放题检查,包括确认选项(如,选“其他,请说明”)与文字记录之间逻辑的一致性,开放题中的文字內容若与固定选项完全相同,则归入该选项;5)缺失值处理;6)生成逐逻辑检查项、逐变量缺失情况变量,作为判定数据质量的指标(再核实);7)生成数据逻辑错误纠正、数据缺失插补记录;8)生成数据清理报告[11]。湖南大学经济数据研究中心没有对其数据清洗进行详细介绍,仅通过链接文章说明了缺失数据的处理办法。
SowiDataNet|Datorium对数据质量有严格地控制,对提交的各类型数据都会进行数据本身、元数据及其附带文档的审查。对于没有隶属机构的科研人员提交的数据,由GESIS管理员进行审查;对于隶属某一机构的科研人员提交的数据由机构的管理员和GESIS管理员进行双重检查。首次检查是由科研人员所在机构的管理员完成。SowiDataNet|Datorium提供了机构管理员角色并开发了相应功能,帮助解决数据存储者在数据存储过程中以及数据用户在数据使用过程中遇到的问题。机构科研人员完成数据输入后,数据先是存储在机构项目库中,机构管理员会按照FAIR(可发现、可访问、可互操作、可重用)标准对数据进行检查,如有必要,管理员可与相关研究人员协商后补充信息或修改更正文件。机构管理员完成检查后,交由GESIS的技术存储库运营商,由GESIS的管理员再次检查数据。此外,为促进标准化进程并为管理者提供帮助,SowiDataNet|Datorium开发了一个通用检查表来指导数据检查[12]。通过通用检查表配合二级审查的方式,SowiDataNet|Datorium有效提高了存储数据的质量。
24访问权限灵活,最大程度促进共享
科研数据只有通过广泛的共享,才能最大限度地发挥价值,实现整体增值,并减少国家的重复投入,实现投资效益最大化[13]。我国的社会科学数据平台很少有可以直接访问具体数据的,大多只能浏览元数据,需要注册申请才能获取完整数据(见表4)。复旦大学社会科学数据平台、北京大学开放研究数据平台是分级别分层次来控制对数据的访问。数据管理者在自己的数据空间中设置用户组,为用户分配角色,不同的角色拥有不同权限,可以对数据进行不同的操作。用户申请数据使用权限实质上就是申请加入某个用户组,数据管理者有权同意或拒绝,从而达到对数据的管理和控制。用户若要使用湖南大学经济数据研究中心的数据,也必须先注册,然后按照所给出的数据获取方式申请获得数据,有些数据仅限教师申请,非注册用户不能获取任何数据。
SowiDataNet|Datorium提供了自由访问(无需注册)、自由访问(需要注册)、受限访问、时滞期4个数据访问级别,可供自由选择。在SowiDataNet|Datorium中有很多数据项目,无需注册申请即可直接访问数据本身。其原则是只存储要公开发布和共享的科研数据,即使由于某些原因数据不立即公开使用,在一段时间后也会自动公开发布,SowiDataNet|Datorium中的科研数据最终都可供用户使用。
25降低使用门槛,确保量的增长
数据平台面向的对象以及数据提交的便捷性是影响平台数据量的重要因素。国内社会科学数据平台面向的对象一种是仅限本校人员,如武汉大学的科学数据共享平台;一种是以本校科研人员为主,其他机构也可使用。如复旦大学社会科学数据平台和北京大学开放研究数据平台。中国人民大学中国国家调查数据库虽面向国内科研人员,但它仅收集调查数据。此外,元数据字段的复杂程度也会影响科研人员使用平台的积极性。各平台的元数据标准见表5。复旦大学社会科学数据平台和北京大学开放研究数据平台建立了基于DDI的元数据著录规范的通用型元数据,并参考和借鉴业界已经形成的元数据规范作为学科专有元数据标准[14-15]。复旦大学社会科学数据平台和北京大学开放研究数据平台均需要对数据空间和数据集进行描述,但主要以数据集为描述对象。对于数据集的描述,包括标题、作者、联系人、描述、学科等多个必填元数据字段。北京大学开放研究数据平台提供的是中英文界面,部分资料信息需要分别按中英文双语填写。为了降低使用门槛,更广泛的收集数据,SowiDataNet|Datorium仅要求5个必填元数据字段(Title;Primary Researcher
作者简介:王丹丹(1980-),女,教授,博士,研究方向:科研数据管理。任婧媛(1994-),女,硕士研究生,研究方向:科研数据管理。吴思洁(1996-),女,硕士研究生,研究方向:科研数据管理。
摘要:[目的/意义]对德国社会科学数据管理与服务平台SowiDataNet|Datorium进行研究,揭示其特色和成功经验,为我国开发国家层面的社会科学公共数据平台提供参考。[方法/过程]利用文献调研和案例分析方法,以德国为例,通过对文献资料和网站内容的调查,获取一手资料阐述德国社会科学数据管理与服务平台SowiDataNet|Datorium的构建情况、功能与特色以及先进经验。[结果/结论]尽快建立我国国家层面的社会科学公共数据平台,该平台应采取分工协作,协同建设的方式;应考虑将机构用户作为重要服务对象,提供面向机构的服务;应通过完善数据标准和规范审核流程的方式加强对数据质量的控制;应考虑提供灵活的数据访问权限选择,并适当降低使用门槛,以在最初阶段最大程度地推动平台的使用。
关键词:社会科学;科研数据;科学数据管理;数据平台;德国
DOI:10.3969/j.issn.1008-0821.2020.11.010
〔中图分类号〕G25074〔文献标识码〕A〔文章编号〕1008-0821(2020)11-0099-08
Research on Social Science Data Management and Service Platform
——The Experience of German
Wang DandanRen JingyuanWu Sijie
(College of Management,Henan University of Science and Technology,Luoyang 471023,China)
Abstract:[Purpose/Significance]Research on the German social science data management and service platform SowiDataNet|Datorium,to reveal its characteristics and successful experience,and provide a reference for China to develop a national-level social science public research data repository.[Method/Process]Using literature research and case analysis methods,taking Germany as an example,through the investigation of literature and website content,obtained the first-hand information to explain the construction,functions and characteristics of SowiDataNet|Datorium and advanced experience.[Result/Conclusion]A national-level social science public research data repository should be established as soon as possible in China.The repository should take the form of division of labor,collaboration and collaborative construction;at the same time,should consider institutional users as important service targets,provide agency-oriented services;provide more flexible data access permission options and lower the use threshold appropriately to maximize the use of the platform in the initial stage.
Key words:social science;research data;scientific data management;data platform;German
社會科学科研数据主要集中在社会、经济领域。社会科学数据管理与服务平台对于切实改变传统的科研数据私有观念,打破信息壁垒,实现科研数据的合理流通和最大限度地共享起着举足轻重的作用[1]。欧美主流的社会科学数据研究机构,均构建了社会科学科研数据平台开展科研数据管理并提供服务[2]。近年来,国内的一些机构和高校也逐渐认识到社会科学数据管理与服务平台构建的重要性,并逐步开展这方面的实践。出现了复旦大学社会科学数据平台、北京大学开放研究数据平台、中国人民大学中国国家调查数据库、湖南大学经济数据研究中心等机构层面的平台。但整体而言,处于起步探索阶段,平台功能远不够完善,国家层面面向社会科学学科领域的公共数据平台尚未出现,由于缺乏技术和服务支撑,大部分高校和科研机构的社会科学科研数据缺乏应有的重视,处于流失状态。
德国是世界主要经济强国之一,是欧盟国家中重视信息化建设、信息化程度较高的国家之一,也是开放获取思想和倡议的发起者及实践先驱之一[3]。作为欧洲开放科学云(EOSC)计划的主要参与者和推动者,一直负责通用数据基础设施建设工作。2014年,在全面收集和分析科研机构的需求后,由德国莱布尼茨学会资助,莱布尼茨社会科学研究所、莱布尼茨经济学信息中心、柏林社会科学中心和德国经济研究所合作开发了社会科学科研数据平台SowiDataNet|Datorium,它是面向具体学科领域的国家层面的公共数据平台,目标是支持实现德国社会经济学领域科研数据的统一存储、安全归档和集中获取[4]。鉴于此,对SowiDataNet|Datorium进行全面的调研和分析,将国内5个平台与SowiDataNet|Datorium进行对比,总结SowiDataNet|Datorium的特色与经验,为我国构建国家层面的社会科学公共数据平台提供启发和参考。 11平台简介
SowiDataNet(https://sowidatanet.de/)项目重点是集中和共享德国社会经济科学领域的科研数据,其核心是SowiDataNet|Datorium,一个基于Web的科研数据平台,通过与德国社会科学领域最大的基础设施提供商GESIS合作,为社会经济科学领域科研数据的交流和长期获取创造一个稳定环境,其目的是:1)为科研机构、科研人员个人和期刊提供科研数据基础架构;2)汇集不同来源和数据提供者的科研数据;3)确保安全的数据存储和对数据的集中访问;4)促进德国数据共享文化;5)通过简化数据共享过程,加强有关数据管理的知识,减少数据共享的不便性[5]。该平台有3类用户:一是科研人员。社会和经济科学领域的科研人员被邀请作为数据存储者,将定量数据、代码、元数据和其他相关文档上载到平台库中,并建立与相关出版物的链接。通过选择访问类别和许可,存储者可以确定数据获取条件;二是数据用户。对于有兴趣重复使用数据的数据用户,SowiDataNet|Datorium提供了便捷的搜索功能。三是科研机构。对于没有机构自己的数据基础设施用于归档和发布科研数据的机构,SowiDataNet|Datorium提出了面向机构科研数据管理的工作流程,并提供了可靠的数据出版平台。但是,使用SowiDataNet|Datorium来管理和发布科研数据的机构需要与GESIS签订合同。
SowiDataNet|Datorium的开发借鉴了GESIS数据共享平台Datorium的开发经验。Datorium专注于社会科学科研人员个人的数据。在Datorium中,科研人员可以自行记录、共享、管理和发布其数据,使数据可见并可用[6]。SowiDataNet|Datorium则专注于机构的数据,解决德国只有少数科研机构能够使用自己的资源来构建可持续运行的科研数据基础架构这一问题,它特别强调平台与机构科研数据管理实际工作流之间的灵活衔接,強调要考虑经济科学领域和科学机构的特殊需求。为此,SowiDataNet|Datorium调整了Datorium所有的工作流程、元数据字段、受控词表以及数据监管过程等,还增加了数据版本控制。GESIS致力于整合Datorium和SowiDataNet,目前SowiDataNet|Datorium已被集成到GESIS的存储和发布服务中。
12数据服务
121数据存储者
SowiDataNet对“科研数据”进行了广泛定义以涵盖各种数据类型。平台中可能包含由实证研究工具新生成的一次数据和从现有信息中推断出的二次数据,可以整合一次数据和二次数据,以及用于数据转换和分析的程序或脚本。此外,还可以提供便于以后使用数据的文档(如问卷、代码簿或技术报告)。要将数据提交到SowiDataNet|Datorium中,数据存储者首先必须注册,并在注册表格中输入地址和与机构的隶属关系。注册完成后即可在SowiDataNet|Datorium中上传和存储数据,数据发布之前,GESIS的负责人将对其进行审查。如果存储者所属机构与GESIS签订了SowiDataNet|Datorium的使用合同,那么SowiDataNet|Datorium会将数据同步分配给机构,由机构管理员进行审查。具体步骤是:
第一步,科研人员建立新的数据项目,上传数据,附上问卷、代码本或语法文件,并使用标准化元数据进行描述。在编辑过程中,可以使用评论功能记录未解决的问题和开放问题,评论内容会及时转发给管理者。一旦完成数据上传,数据就会被转移到机构数据池中。第二步,机构管理员访问数据池,选择项目进行内容审查。管理员会根据正式标准(即可读性、完整性、数据保护规定和正确描述)检查数据、元数据和文档。如必要,管理员在与相关科研人员讨论并达成一致后可修改或更正文件。SowiDataNet|Datorium提供了一个标准化的检查表来帮助机构数据管理员审查所提交的数据(如图1)。未来,计划开发面向特定科研机构的检查表。第三步,机构完成审查后,管理员把数据发送给GESIS,由GESIS的管理员进行再审查,通过后,注册服务da|ra为数据分配DOI,并使数据及其元数据在da|ra、DataCite元数据门户以及所有利用元数据收割的服务(如OAI-PMH)中均可见,且能与re3data.org和OpenAIRE等集成。
提交的数据存放在SowiDataNet|Datorium中。SowiDataNet|Datorium运营期间,会保证对所有数据和元数据物理保存至少10年。如有需要,可延长保存期,或将数据存入GESIS数据档案库中长期保存。与GESIS数据档案库的集成极大地提高了长期有效存储科研数据的可能性,当科研人员或内部人员跨机构流动时,科研数据仍能以一种用户可理解和重用的格式集中记录和保存,即使没有数据提供者或内部人员的支持,在以后也可以追溯和使用数据。如果SowiDataNet|Datorium停止运营,数据、元数据和其他材料将会被纳入GESIS社会科学数据档案库,并按照协议维护和重用。所有文件都会与校验和一起存储,数据管理者会定期检查这些校验和以确保对应文件没有任何更改,数据集和元数据每天都会进行备份,并将备份存放在不同的位置。
发布数据时,数据存储者可以设定访问级别,包括:1)免费获取(无需注册);2)免费获取(需要注册);3)受限获取。当数据使用者尝试下载数据时,SowiDataNet|Datorium将生成电子邮件表格。数据使用者需填写此表格,向管理员请求获取数据。协商后,管理员将批准用户获取数据;4)时滞期。对于那些不想让他人立即获得其数据的存储者,可以设置时滞期,最长2年。元数据会立即发布,但数据本身仅在时滞期结束后方可使用。时滞期结束时,上传的数据将自动出版,以供免费或受限获取。
在“我的提交”中,数据存储者可以看到所有提交数据的状态:1)未完成。这是尚未提交审核的草稿,可以访问,继续编辑,直到提交。2)审阅。这是机构管理员或GESIS管理员正在审核的已提交数据项目,无法再编辑。审核通过后,数据将在SowiDataNet|Datorium中发布,并被分配DOI。存储者及其机构将收到电子邮件通知。3)已发布。这是在SowiDataNet|Datorium中已发布数据的列表。如需对数据、元数据或文档进行更改,则必须与GESIS的SowiDataNet|Datorium团队联系。任何更改都必须在出版之前进行审核。 122数据用户
SowiDataNet|Datorium为社会和经济科研数据提供了统一访问入口,数据用户能够使用元数据进行研究,使用数据进行重新分析或开始新的科研项目。数据用户可以通过两种方式搜索合适的科研数据:一是在起始页上的搜索框中输入关键字;二是通过单击顶部导航中的“Show All Data”按钮开始浏览整个馆藏。要缩小结果范围,则使用结果页面上提供的过滤器。如果在搜索结果中找到了感兴趣的记录,可以单击标题获取详细的记录说明和下载选项。
123科研机构
除了面向数据存储者和数据用户的免费服务外,SowiDataNet|Datorium还可以与研究生院、特殊研究领域(德国合作研究中心)或实验室直接对接,SowiDataNet|Datorium为与GESIS签订合同的机构提供额外的收费服务,标准见表1。其中包括:
1)进入监管区,机构的管理者可以对机构员工提交的数据进行初步审查。
2)提供导出机构研究和元数据以在机构网页上展示的技术手段。
3)提供机构出版的科研数据的统计报告下载。
4)为机构使用SowiDataNet|Datorium提供支持。
机构通过SowiDataNet|Datorium提供的预定义角色——机构管理员,可将SowiDataNet|Datorium集成到机构科研数据管理工作流程中。在项目开始时,机构管理员告知科研人员可以进行数据管理和出版,向科研人员说明数据的时滞期、与数据准备或数据文件有效处理相关的要求等,以避免在项目的最后阶段工作量过大。在项目进行中,SowiDataNet|Datorium对机构数据进行管理,支持数据版本控制并为内部和外部报告提供信息[8]。
2SowiDataNet|Datorium的特色与启示
21分工合作、协同建设
目前,我国的社会科学数据平台主要是由国家投入资金,高校主持建设或高校联合各部门自主建设,多为机构独立建设,缺乏国家层面的统筹管理。平台建设的经费也主要是国家财政支持,很少有社会组织或专业学会的资助,资金来源比较单一。如表2。
平台主题领域建设时间与建设主体资金来源
复旦大学社会科学数据平台社会经济、地球与环境科学、计算机与信息科学、其他2013年,复旦大学社会科学数据研究中心985项目资助
北京大学开放研究数据平台社会科学、计算机与信息科学、生命科学、地球与环境科学、其他2015年,北京大学图书馆、管理科学数据中心、科研部、社科部国家自然科学基金
武汉大学高校科学数据共享平台社会学、生命科学2012年,武汉大学图书馆、CALIS科研数据管理项目组教育部专项资金
中国人民大学中国国家调查数据库社会、经济、教育、健康2009年,中国人民大学中国调查与数据中心、中国政府统计研究院国家自然科学基金
湖南大学经济数据研究中心社会、经济管理2013年,湖南大学经济与贸易学院本校资助
與国内平台的建设模式不同,作为国家层面推动建设的项目,SowiDataNet|Datorium采用的是跨机构分工合作和协同建设的方式,保证了平台技术的可靠性(安全运行和及时更新维护),同时确保科研数据收集的专业性和高质量。SowiDataNet项目是由德国莱布尼茨学会(Leibniz-Gemeinschaft)资助,莱布尼茨社会科学研究所(GESIS)、莱布尼茨经济学信息中心(Leibniz Information Centre for Economics,ZBW),柏林社会科学中心(Berlin Social Science Center,WZB)、德国经济研究所(German Institute for Economic Research,DIW)合作建设的。鉴于GESIS和ZBW在基础设施建设方面丰富的经验,由GESIS和ZBW负责基础设施的开发,而由专注于社会经济研究的WZB和DIW负责相关的研究工作。作为国家层面的公共数据平台,SowiDataNet|Datorium为没有自己数据基础设施的机构和科研人员提供了安全记录、持久存储和共享科研数据的平台,为数据用户提供了丰富的数据资源和统一的检索入口;使得制
定共同标准对德国社会和经济科学科研数据存档和记录得以实现,通过最终链接到GESIS数据档案库,确保了社会和经济科学科研数据的长期保存。与此同时,通过提供收费服务来收取资金,维持持续运营,减轻了国家的财政负担。
22服务对象多元化,关注机构用户
国内已有的社会科学数据平台都属于机构平台,主要为本机构的科研人员服务,以收集本机构科研人员的数据为主,数据是直接存储在本地(见表3)。很少有平台对外开放,供其他机构和科研人员存储和出版数据。各平台独立存储,单独维护,标准不一,用户要使用数据,就必须访问多个平台,这给数据用户带来了不便,一定程度上阻碍了数据共享[9]。SowiDataNet|Datoriu则是将机构用户作为平台的一类重要用户,突出面向机构的服务功能,解决只有少数机构能够使用自己的资源构建并长期运营数据平台这一问题,让尽可能多的机构能够很容易借助SowiDataNet|Datorium,实现机构自己的数据管理和服务。
与国内平台的服务模式不同,SowiDataNet|Datoriu除了为数据提供者和用户提供服务外,还专门针对机构提供付费服务。SowiDataNet|Datorium支持机构系统地存档其科研成果,并及时提供给科学界使用。SowiDataNet提供了一个附加模块,使机构可以将存储在SowiDataNet|Datorium中的
科研数据集成到机构自己的网站中展示并使其可搜索。展示窗口Showcase可以进行个性化设计。通过Showcase,Sowidatanet为机构提供了自己的前端,搜索功能与Sowidatanet主页上的搜索功能一一对应(自由文本搜索和分面过滤)。只是搜索范围仅限于机构自己的数据馆藏。Showcase和SowiDataNet之间的信息交换是通过REST API进行的。因此,元数据和数据本身都可以直接从Showcase中获取。Showcase可以作为一个中心Web服务由Sowidatanet托管,此时Showcase通过iFrame集成到机构网站中,但可以作为科研机构主页的独立子页面调用(如图2)。上述两种情况,机构均可以通过改写CSS文件(如,通过合并徽标或调整颜色和字体)来自定义视图,也可以选择在机构的服务器上执行本地安装,并根据需要调整源代码。 23重视数据质量,启动二级审核
国内的平台中只有中国人民大学中国国家调查数据库和湖南经济数据研究中心提到了数据清洗,其它平台均未提到数据质量检查。中国人民大学中国国家调查数据库收集的主要是社会调查数据,所以其数据清洗主要是对调查问卷的检查,具体项目包括:1)问卷数据的单变量非法值检查(含连续变量的不合理值检查);2)问卷数据的逻辑检查,包括跳答题的检查,复选题的检查,偏好次序题的检查;3)依据问卷问题之间的关联性,做逻辑检查;4)问卷数据的开放题检查,包括确认选项(如,选“其他,请说明”)与文字记录之间逻辑的一致性,开放题中的文字內容若与固定选项完全相同,则归入该选项;5)缺失值处理;6)生成逐逻辑检查项、逐变量缺失情况变量,作为判定数据质量的指标(再核实);7)生成数据逻辑错误纠正、数据缺失插补记录;8)生成数据清理报告[11]。湖南大学经济数据研究中心没有对其数据清洗进行详细介绍,仅通过链接文章说明了缺失数据的处理办法。
SowiDataNet|Datorium对数据质量有严格地控制,对提交的各类型数据都会进行数据本身、元数据及其附带文档的审查。对于没有隶属机构的科研人员提交的数据,由GESIS管理员进行审查;对于隶属某一机构的科研人员提交的数据由机构的管理员和GESIS管理员进行双重检查。首次检查是由科研人员所在机构的管理员完成。SowiDataNet|Datorium提供了机构管理员角色并开发了相应功能,帮助解决数据存储者在数据存储过程中以及数据用户在数据使用过程中遇到的问题。机构科研人员完成数据输入后,数据先是存储在机构项目库中,机构管理员会按照FAIR(可发现、可访问、可互操作、可重用)标准对数据进行检查,如有必要,管理员可与相关研究人员协商后补充信息或修改更正文件。机构管理员完成检查后,交由GESIS的技术存储库运营商,由GESIS的管理员再次检查数据。此外,为促进标准化进程并为管理者提供帮助,SowiDataNet|Datorium开发了一个通用检查表来指导数据检查[12]。通过通用检查表配合二级审查的方式,SowiDataNet|Datorium有效提高了存储数据的质量。
24访问权限灵活,最大程度促进共享
科研数据只有通过广泛的共享,才能最大限度地发挥价值,实现整体增值,并减少国家的重复投入,实现投资效益最大化[13]。我国的社会科学数据平台很少有可以直接访问具体数据的,大多只能浏览元数据,需要注册申请才能获取完整数据(见表4)。复旦大学社会科学数据平台、北京大学开放研究数据平台是分级别分层次来控制对数据的访问。数据管理者在自己的数据空间中设置用户组,为用户分配角色,不同的角色拥有不同权限,可以对数据进行不同的操作。用户申请数据使用权限实质上就是申请加入某个用户组,数据管理者有权同意或拒绝,从而达到对数据的管理和控制。用户若要使用湖南大学经济数据研究中心的数据,也必须先注册,然后按照所给出的数据获取方式申请获得数据,有些数据仅限教师申请,非注册用户不能获取任何数据。
SowiDataNet|Datorium提供了自由访问(无需注册)、自由访问(需要注册)、受限访问、时滞期4个数据访问级别,可供自由选择。在SowiDataNet|Datorium中有很多数据项目,无需注册申请即可直接访问数据本身。其原则是只存储要公开发布和共享的科研数据,即使由于某些原因数据不立即公开使用,在一段时间后也会自动公开发布,SowiDataNet|Datorium中的科研数据最终都可供用户使用。
25降低使用门槛,确保量的增长
数据平台面向的对象以及数据提交的便捷性是影响平台数据量的重要因素。国内社会科学数据平台面向的对象一种是仅限本校人员,如武汉大学的科学数据共享平台;一种是以本校科研人员为主,其他机构也可使用。如复旦大学社会科学数据平台和北京大学开放研究数据平台。中国人民大学中国国家调查数据库虽面向国内科研人员,但它仅收集调查数据。此外,元数据字段的复杂程度也会影响科研人员使用平台的积极性。各平台的元数据标准见表5。复旦大学社会科学数据平台和北京大学开放研究数据平台建立了基于DDI的元数据著录规范的通用型元数据,并参考和借鉴业界已经形成的元数据规范作为学科专有元数据标准[14-15]。复旦大学社会科学数据平台和北京大学开放研究数据平台均需要对数据空间和数据集进行描述,但主要以数据集为描述对象。对于数据集的描述,包括标题、作者、联系人、描述、学科等多个必填元数据字段。北京大学开放研究数据平台提供的是中英文界面,部分资料信息需要分别按中英文双语填写。为了降低使用门槛,更广泛的收集数据,SowiDataNet|Datorium仅要求5个必填元数据字段(Title;Primary Researcher