Google Scholar的数据整合研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:q418004922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]Google Scholar对各种学术资源数据库进行了有效而全面的集成,通过同一界面简单查询可以得到不同语种、各种来源的文献。本文通过实例对Google Scholar整合的数据进行研究,结果显示整合的中文数据主要来自维普与万方期刊,英文数据来源广泛。通过比较4个专利平台和几个常用全文数据库,Google Scholar对美国专利和全文数据库都有很好的覆盖率。本文还讨论了Google Scholar对于相同文献不同来源的数据处理。
  [关键词]Google Scholar;数据整合;数据检索
  DOI:10.3969/j.issn.1008-0821.2010.07.011
  [中图分类号]G250.76;G255.2 [文献标识码]A [文章编号]1008-0821(2010)07-0039-03
  Research on Data Integration of Google ScholarHong Daoguang
  (Library,East China University of Science and Technology,Shanghai 200237,China)
  [Abstract]Google Scholar gives an effective integration on academic resource databases.Different language and resource results with simple searching interface can be got.The article researched on data integration of Google Scholar by retrieval example.Google Scholar is mainly from VIP and Wanfang periodical databases in Chinese data and widely from various databases in English data. Comparing with four patent platforms and some usual full-text Databases,Google Scholar provided good coverage to American patent and these full-text Databases.It was also discussed that the same article with deferent sources was treated in Google Scholar.
  [Keywords]Google Scholar;data integration;data retrieval
  
  Google Scholar(以下简称GS)作为学术搜索引擎,具有数据来源广泛、可以在线免费检索、方便使用等特点而被越来越多的读者使用,但到目前为止Google公司没有明确地公布GS判断学术资源的标准、收录范围与数据标引[1]。相比传统的专业文献数据库一般有明确的收录范围及标准,因此通过GS与这些专业数据库检索结果对比,可以较好地对其进行评判[2-7]。本文通过实例从数据整合的角度对GS的数据来源、整合方法进行探讨,以便读者对GS的数据有更直接的了解,同时供同类数据整合建设时参考与比较。
  1 研究方法
  GS有不同语言的检索界面,相比中文版(原地址http:∥scholar.google.cn/,现改为http:∥scholar.google.com.hk/),英文版GS(http:∥scholar.google.com/)提供了更多的条件选择:可以根据需要选择是否包含专利文献,在高级检索中还增加了学科分类,对中文数据GS没有进行学科分类,因而查询中文时不能再另选学科。本文比较时,选择英文版作为查询界面[8]。
  GS结果界面一般包含学术文献的标题,提供文献的作者、年份、出处,对于来自网络数据,还提供网络来源及相应出处的超链接。直接的数据显示有字符数的限制,如长标题的文献是带有省略号的题名。本文通过设置中的使用偏好(Scholar Preferences),将文献的完整信息导出到.bib管理文件中,通过程序批量处理后导入数据库,GS包含的其它信息如多复本的版本信息、数据出处的平台站点信息也一同通过处理倒入数据库。
  为方便比较,选用高级检索的题名检索,检索式如下表1所示的中文与英文文献检索:
  上述检索中,英文文献实际废水更多的是以Wastewater出现,这里只是考虑结果适中的数据利于比较,中文检索“废水”与“分析”的逻辑组合也只是出于结果数的考虑。
  我校以理工为特色的综合性大学,购买的中文全文文献包括维普数据库、万方数据资源库、中国知网数据库等,外文全文数据库有Elsevier、Springer、IEEE、Wiley、ACS等,本文侧重比较这些数据库及免费的专利数据库与GS的检索结果,分析GS对这些数据库的整合情况。
  2 数据整合结果分析
  2.1 中文文献的整合
  GS收集的中文文献主要是中文期刊文献,按上述表1检索条件,得到的文献共526篇(2009年12月15日查询结果)。检索的结果按其数据库平台出处分布如下表2所示:
  上表显示的数据(结果数也可以通过查询窗口中加对应的数据库平台地址得到,如维普数据在查询栏中加site:cqvip.com)来自维普、万方、中国知网数据库的文献共483篇,占全部数据量的91.5%。表中显示的23篇其它链接为来自20个不同平台的数据,另外有22篇无链接出处为均来自文献引用的参考文献。GS对重复的文献数据只提供一个来源数据供查询,其它来源只有点击结果页面上的文献版本信息获得。例如上述维普来源的数据,除了可以直接通过查询得到349篇外,在万方数据资源的45文的版本中查到14篇文献有维普来源的信息,另外23篇其它链接资源的版本信息里中有16篇维普数据库来源的数据,而这二部分的数据不能通过站点(site:cqvip.com)查到。事实上比对发现GS收录了维普与万方数据所有的期刊数据,只收录了少量中国知网的期刊数据,而维普与万方资源的期刊数据存在着大量重复(见表3),因而整合时存在着谁作为可查询来源的数据的问题,从结果看,GS按以下顺序选择:
  [全文数据]>维普数据>万方数据>[引文]
  7上述16篇其它链接的文献均有全文,因而重复的维普来源放在版本信息中,大部分维普数据结果的版本中包含万方数据来源,但也有少数万方数据优于维普的情况。
  中文期刊集中在维普、万方、中国知网3个商业中文数据库中,比较这3个数据库的直接查询及GS结果可以反映数据库之间的重复率及GS的覆盖率。结果如下表3所示:
  表3显示这3个数据库得到的数据量相近,重复率高,中国知网期刊更新速度最快。不计2009年数据,维普数据库检中数据量最多,维普数据对万方期刊重复率93.6%,对中国期刊数据的重复率为94.1%。GS包含了维普、万方期刊的全部期刊数据,但GS直接收录的知网期刊数据很少,表2中来自中国知网的46篇文献中,来自知网中的会议论文(cpfd)27篇和硕士论文(cdmd)19篇,在版本信息中也基本上没有见到知网的中文期刊来源。尽管如此,如果去除2009年数据,GS对知网中国期刊文献覆盖率为97.2%。
  分析表明GS标引有许多错误,万方学术数据库(scholar.ilib.cn)平台数据,实际上是万方资源数据的另一个平台,表1中,GS整合的43篇数据均是引用的文献,显示的结果中有12篇标题出错,另外给出的作者也明显与原文不对应,将正确的原文标题在GS进行重新查询,结果显示43文均可以直接在维普或万方数据资源平台来源的数据里查到,另外无链接的22篇文献也同样发现有16篇包含在维普数据中,由于格式、文字错误等原因作为独立标引,按上述规则其正确的结果应该只能在版本信息中出现。
  2.2 英文文献的整合
  GS整合的英文文献来源广泛,数据也作了进一步的分类与整合。按表1英文检索例结果共945条结果记录(2009年12月15日检索数据),其中引文数据247条,引文数据中有许多标引错误,造成文献重复显示。这里只讨论去除引文的结果,共有698篇,其中专利215篇,其它483篇,分布学科主要是环境、材料、化学、工程等学科。
  2.2.1 专利文献整合
  GS查询的专利数据共215篇,主要来自4个网络平台上的数据,如表4所示:
  GS导出的文献信息(.bib)文件中的专利信息十分简单,包含的信息也不一致,在日期项中GOOGLE专利站点(www.google.com/patents)集成的未授权专利为申请日期(Filing date)、授权专利是授权日期(Issue date),而其它站点的数据选择的是公开日期(Publication date)或公开的年份,上表来自2,4站点的GS数据只有发明者、标题信息、专利公开的年份信息。
  GS的专利检索数据来自GOOGLE专利平台的结果,该平台仅收录美国专利,GS还包括欧洲专利与PCT专利,数据分别来自freepatentsonline.com平台及世界知识产权组织(wipo.int)专利和欧洲专利局平台(v3.espacenet.com),对于重复的数据,GS显示的只是其中的一条,其余的可点击版本(version)链接信息显示同一篇专利不同站点来源链接,数据排列如下:
  Google Patents>freepatentsonline.com>wipo.int>v3.espacenet.com>[引文]
  即数据重复时,排在前面的数据作为GS第一页面显示,排列后面平台的重复数据只出现在版本信息中,直接检索时只检出第一页面来源的数据。如GS中检出的freepatentsonline.com的56条数据中,有5条是GOOGLE专利还没有收集的最新美国专利,其余的51条包含欧洲专利和WIPO专利,查询多版本的重复数据发现其中欧洲专利局来源有40条,知识产权局13条,而这些数据没有直接在GS相对应的站点检索中检出。
  2.2.2 其它英文文献的整合
  除专利文献外的,数据来源于112个平台网站出处,大于10篇文献的平台出处有11家,涉及到具体的刊物近300种,合计不同版本的总数,共1 480次。其中前7个平台如下表5:
  表5中日本科技门户数据为日本科技文献的英文文摘,中国知网的英文数据主要是中文期刊中对应的英文题录,说明英文文献来源广泛,而通过GS也可以了解所查询课题的不同数据来源。
  GS提供的链接为该文献的原始数据出处,点击文献链接自动得到该文献许可的相应权限,校园网访问学校订阅的外文全文数据库时一般通过IP地址控制的,因此通过校园网进行GS查询就可以直接访问相应的数据全文。GS实际上整合了这些数据库访问的入口。以下是我校订阅的主要外文期刊全文,及相对应的GS检中结果。
  表6GS直接查询数指不包括在版本信息里的数据,数据库查询是指各数据库平台本身查询的结果,文献检中数指所有GS数据覆盖对应数据库查询的数据,上表中Wiley数据较多在版本信息中出现,所以直接查询数据相差较大,其它数据基本相近,说明大部分数据GS作为可直接查询数据,另外表中Elsevier中有6文只是编辑发布的消息,GS没有包含这部分的数据,因而实际覆盖率如果去除这6篇文献应达到98.1%。
  3 结 论
  通过对GS的数据查询得出如下结论:
  (1)GS整合重复数据时,直接查询时一般只能查询出其中一个来源地址作为第一个页面,其余的不同来源信息只有点击版本(Version)信息后显示,对于免费提供全文的文献一般优先给出;
  (2)GS的中文数据主要是中文学术期刊的文献,数据主要来自维普及万方的数据整合,对于重复的文献维普较为优先作为可查询来源地址;不同于外文全文数据库,校园网用户的IP地址没有绑定在相应的服务器上,从GS查到的来自维普、万方、中国知网数据库的结果均无法通过校园网直接阅读全文数据,中文数据库的全文数据只能通过本地镜像或数据商提供的专用地址上获得,因而通过GS途径调用全文显得不便;
  (3)GS整合的英文专利主要是美国专利也有一些WIPO、欧洲专利的英文数据,来源数据及排序优先选自Google专利(www.google.com/patents)及免费专利平台(freepatentsonline.com),相比专利局提供的专利,这二个平台读取或下载全文数据更方便;
  (4)GS整合的英文学术文献数据来源广,对于英文学术数据库的网上数据库资源如Elsevier、Springer、IEEE、Wiley等均有良好的覆盖率,利用GS检索可以直接通过校园网访问这些有权限的文献全文;
  (5)GS根据文献被引情况采取自动分析与抽取引文,考虑全文、作者、出版物及被引情况,按相关度排序,提供了很好的参考。但从检索结果看通过文献引文得出的数据,有许多错误,从而影响了其结果的准确性与完整性。
  
  参考文献
  [1]Google学术搜索帮助[EB].http:∥scholar.google.com/intl/en/scholar/about.html
  [2]Kayvan Kousha and Mike Thelwall,Google Scholar Citations and Google Web/Url Citations:A Multi-discipline Exploratory Analysis,Journal of the American Society for Information Science and Technology,2007,58(7):1055-1065.
  [3]夏旭.基于Google学术搜索的引文检索研究[J].情报理论与实践,2006,29(6):697-701.
  [4]John J.Meier and Thomas W.Conkling,Google Scholars Coverage of the Engineering Literature:An Empirical Study,The Journal of Academic Librarianship,2008,34(3):196-201.
  [5]William H.Walters,Google Scholar coverage of a multidisciplinary field,Information Processing & Management,2007,43(4):1121-1132.
  [6]陈家翠,谷玉荣.Google学术搜索检索性能的分析及评价[J].情报理论与实践,2007,30(5):74-78.
  [7]洪道广.Google Scholar与工程索引的检索比较[J].现代情报,2009,29(11):125-127,130.
  [8]Google学术搜索中文版[EB].http:∥scholar.google.com.hk,2010-02-02.
  [9]Google学术搜索英文版[EB].http:∥scholar.google.com,2010-02-02.
其他文献
【摘 要】 随着经费来源渠道的多元化,高等学校所属单位存在不严格执行财务管理制度而形成“小金库”的现象。高等学校“小金库”的存在对正常的经济秩序具有很大的破坏性,应该采取多种措施减少甚至根除高等学校“小金库”。  【关键词】 小金库;高等学校; 应对措施    随着高等学校办学经费来源从单一财政拨款到多渠道筹资的变化,在部分财务管理制度不健全的高等学校滋生了“小金库”现象。高等学校“小金库”的存在
〔摘 要〕本文通过对传统图书馆文化的解读,从物质、精神、制度、行为等角度分析了图书馆文化的构成要素。接着阐述了高校图书馆与校园文化的关系,并探讨新时期高校图书馆文化建设的策略和原则。  〔关键词〕高校图书馆;图书馆文化;校园文化;文化构建  〔中图分类号〕G258.6 〔文献标识码〕A 〔文章编号〕1008-0821(2009)02-0022-03    The Construction of U
利用价值工程的原理所建立的建设工程项目设备招标的评标模型,综合考虑了各方面的评标因素:技术上对功能进行了全面分析,经济上考虑全寿命费用,把技术与经济有机地结合起来,这一做
【摘 要】 文章按照财政部印发的《关于开展村级会计委托代理服务工作的指导意见》,以安徽省208户样本村集体经济组织基础数据为依据,侧重围绕村集体经济组织财务状况、经营成果、收益分配、财务会计管理模式等问题,对村级财务会计管理现状进行深入分析,提出进一步规范实施村级会计委托代理制度,提升村级财务会计管理执行力的基本构想。  【关键词】 村级财务会计管理;会计委托代理;建议    村级财务会计管理是新
本文从我国高校数字化教育资源整合中所面临的问题入手,重点从资源布局分散、缺乏合作,数据整合不规范,重硬件投资轻软件投资等方面进行了分析,并且结合高校数字化教育资源整
介绍网上国内外专利常用检索方法、全文获取技巧以及失效专利开发利用,其中常用检索方法包括直接访问以官方为主的专利网站、利用搜索引擎和专利下载工具软件等,获取技巧包括通
本文对全国45所农林高校进行了网络调查,就在线信息素质教育的现状和存在的问题进行了分析,提出了通过完善平台建设、深化信息素质通论教育、推进课程整合式教育和加强合作共
[摘要]会计信息化使会计工作的重心由会计核算向会计管理转变,对会计人员的业务素质特别是智能素质和个性素质提出了更高的要求。珠算与会计人员智能的发展、个性素质的培养有密切的关系,起着积极的作用。  [关键词]珠算;技能训练;素质    现代信息技术,特别是网络技术的发展促进了会计从会计电算化向会计信息化方向发展,会计信息化体现了网络环境下会计和会计工作的重心由会计核算向会计管理转变。它对会计人员的业
本文运用多目标规划的知识,联系湘鄂渝黔边欠发达地区农村信息资源建设的实际情况,对其信息资源进行合理配置,以期在有限经费条件下,最大限度地同时满足其经济效益、协调发展