基于语义网的图书馆统一检索平台研究

来源 :中国现代教育装备·高教 | 被引量 : 0次 | 上传用户:wff0301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:近几年来,各高校图书馆都纷纷建设统一检索平台,比如上海交通大学的“思源探索”,北京大学的“未名学术搜索”等,都试图通过统一检索平台给读者带来知识服务。但这些检索平台还未能解决输入关键词的语义联想以及检索平台的元数据更新问题,这也会产生很多实际问题。为了解决这些问题,就必须要在统一检索平台中引入语义网的相关技术,从而在细节上完善统一检索平台,真正为读者提供一站式的检索平台。
  关键词:语义网;元数据;知识服务
  Based on the semantic web library retrieval platform research
  Wu Hui
  East China university of political science and law, Shanghai, 200042, China
  Abstract: In recent years, various universities library in construction have unified retrieval platform, such as Shanghai Jiaotong university thinks the exploration, the future of the Beijing university of exploration and so on. These retrieval platform are trying to through the unified retrieval platform to readers to bring the knowledge service, but these retrieval platform also failed to solve enter the keywords of semantic association and retrieval platform of renewing the metadata, and produced a lot of practical problems. In order to solve these problems, it is necessary to unified retrieval platform in the introduction of the semantic web of related techniques to solve, and thus in the detail perfect retrieval platform, really for the reader to provide one-stop retrieval platform.
  Key words: semantic web; metadata; knowledge service
  近几年来,高校图书馆的馆藏资源有了迅猛的发展,包括数字资源和纸质资源都增长迅速,为了能让读者更好地了解图书馆的馆藏资源,让馆藏资源更好地为读者服务,各高校图书馆纷纷建立自己的统一检索平台,把相关馆藏资源进行整合,试图让不熟悉图书馆馆藏资源的读者只要通过统一检索平台就能方便地利用好图书馆的馆藏资源,同时也提高了数据库的利用率,但各高校在建设统一检索平台及使用过程中出现了很多问题和困惑。例如:
  (1)当前社会的信息量呈几何级数增长,跨专业和跨学科的信息量也增长迅速,这对高校图书馆元数据的归类提出了更高的要求,信息过载现象造成了高校图书馆元数据整理的难度。
  (2)各高校图书馆都在建设统一检索平台,在这个过程中碰到的最大问题是如何对各数据库的元数据进行有效整合。统一检索平台建设的关键在于是否支持读者输入的关键词的有效联想,例如:读者输入“金融法”关键词,统一检索平台是否能将此关键词进行分解,从词的内涵和外延入手,联想出与金融法领域相关的信息,并能反馈出读者所需要的信息。或者是否能从人工输入改成运用语义网技术,通过一次输入“金融法”关键词,让计算机自动识别出读者的意图,然后通过计算机智能的手段来加以识别,这样也就解决了读者查不全和查不准的问题。或者统一检索平台能对读者注册信息进行智能分析,那么读者完成登录后,计算机即可将读者的身份信息进行分析,将读者的研究领域和研究偏好与读者输入的关键词进行合并检索,以便让每一位读者都能迅速检索到所需要的信息,但这一切的实现都离不开语义网的应用以及元数据的整理。通过基于语义网的元数据整理,有助于统一检索平台更加人性化地为读者提供良好的服务,也能更有效地将图书馆的馆藏资源揭示给读者,让读者更充分地利用好图书馆的相关资源。
  (3)在高校图书馆中,元数据的统一规范有助于实现图书馆联盟之间的信息资源共享,很难想象如果CALIS(中国高等教育文献保证系统)不将各图书馆的编目数据进行规范,那么机构知识库将如何实现,或许只能是“空中楼阁”。
  (4)信息载体形式日益复杂,信息检索的方式也向多样化发展,而简单的元数据已经无法描述数据的多样化特征,也要求对图书馆元数据进行扩展,以满足信息检索的需要。
  鉴于以上问题,如果要全面描述数据的特征则需要引入语义网相关技术,对图书馆元数据进行扩展,才能满足读者对信息检索多样性的需求,为图书馆真正应用语义网奠定基础,那么图书馆如何运用语义网真正改善统一检索平台的性能,则是我们研究的重点。
  1 语义网相关概念简介
  互联网之父Tim Berners-Lee首次提出了语义网[1](Semantic Web)的概念、技术路线和基本思想,并给出了定义。目前语义网用到的技术主要是3种:XML,RDF和Ontology。
  (1)XML[2](eXtensible Marked Language,即可扩展标记语言)可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。   (2)RDF[3]是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点。值得注意的是,RDF只定义了资源的描述方式,却没有定义用哪些数据描述资源。RDF由3个部分组成:RDF Data Model,RDF Schema和RDF Syntax。
  (3)Ontology[4](本体或本体论),原本是一个哲学上的概念,用于研究客观世界本质。目前Ontology已经被广泛应用于包括计算机科学、电子工程、远程教育、电子商务、智能检索、数据挖掘等在内的诸多领域。它是一份正式定义名词之间关系的文档或文件。一般Web上的Ontology包括分类和一套推理规则。分类,用于定义对象的类别及其之间的关系;推理规则,则提供进一步的功能,完成语义网的关键目标即“机器可理解”。本体的最终目标是“精确地表示那些隐含(或不明确的)信息”。
  2 语义网在法律信息资源统一检索方面的应用
  语义网应用于信息检索的关键在于将图书馆有关馆藏资源进行整理,将原来处于“信息孤岛”的文献用学科分类串连起来,从而形成以知识单元为基础的语义网,从对文献信息的描述转向对知识的描述,显性知识整合体现了图书馆知识组织由表及里的发展过程,最终形成学科语义网,只有这样,才能完善图书馆的统一检索平台。下面以法律信息检索为例来详细介绍语义网在法律信息检索方面的应用。
  2.1法律信息资源元数据模型的定义
  首先要从操作互联、表示互联、内容互联3个层次来对法律信息进行语义标注,建立法律信息资源的多维语义共享模型。其平台的基本模型图如图1所示。
  然后运用以上模型建立法律资源信息描述,资源信息描述包括资源的外在元信息描述以及资源内容描述,从而初步形成法律资源信息在不同知识协作过程中的结构关系,即协作上下文关系描述。法律信息资源包括法律公文(含司法文书)、法律、法规、司法解释、法律案例、判例、司法证据以及相关的声音、视频、图像等多媒体资料,根据DC元数据标准,我们定义了法律信息资源表示规范本体LIRSI(Legal Information Resource Standard on the Internet),其中法律信息资源元数据定义见表1。
  2.2 法律信息资源内容本体建设
  法律信息资源内容本体建设按照学科分类进行组织和辨识,学科知识点间的关系主要有子类(或称为“被包含”)关系和父类(或称为“包含”)关系两种。从面向对象的角度讲,以前仅是单重继承,现在出现了多重继承关系,但学科内容间的二元分类关系仍然是子类或父类关系。因此,在结合语义查询的法律信息检索中,为了获取准确全面的资源信息,必须对这些不同的关系进行考虑,设计相应语义检索策略。在这里主要采用了我国学科分类与代码国家标准GB/T 13745-2009[5],同时结合中图分类法第五版等分类规范进行综合。
  2.3 法律信息资源来源介绍
  法律信息资源来源主要分为两类:一类是图书馆购买的专业法律数据库,另一类为利用探测工具搜集到的与法律信息有关的网络资源。这些资源可以通过元数据语义定义后,被科学合理地组织,成为统一检索平台的稳定的资源来源。
  2.4 法律信息资源发布介绍
  在搜集完法律信息资源并进行元数据语义定义后,首先利用映射工具建立其信息资源和元数据表示层的映射关系,利用本体标注工具,参照领域本体,对信息资源进行语义标注,并自动生成相应的映射和标注.xml文档,随后利用此文档信息,对资源库的操作接口进行Web服务封装,并发布到统一检索平台的目录服务器上,从而完成了法律信息资源的发布。
  3 结束语
  图书馆建设统一检索平台的目的是为了让读者全面了解馆藏资源,能够一站式地通过统一检索平台查询到资料,而以往的检索平台由于只是基于关键词的有关检索技术,不能很好地适应读者查全和查准的需要。如果在基于语义网的平台上则不会出现这样的问题,读者通过输入关键词,系统将对关键词进行分析,由于在检索平台中元数据都运用到语义网的RDF技术以及本体技术,能将图书馆馆藏资源更好地展示给读者,有助于读者更直接地获取有关信息资源,并且语义网技术的引入有助于统一检索平台的查全需求,从而为进一步查准做好准备。
  参考文献
  [1] 周静怡,黄国彬.2007-2008年国外语义网研究与应用进展[J].图书馆建设,2008(1):19-23.
  [2] Miller P.Web 2.0:Building the New Library[EB/OL].[2008-11-04].http://www.ariadne.c.uk/issue45/miller/.
  [3] 邱均平,苏金燕.国内信息资源管理研究综述[J].图书馆论坛,2007(6):56-60.
  [4] 王思哲.我国学术期刊关键词标引质量探析[J].延安大学学报:社会科学版,2001(3):97-99.
  [5] 钟伟金,李佳.共词分析法研究(一):共词分析的过程与方式[J].情报杂志,2008(5):70-72.
  (本栏责任编辑/叶梅)
  收稿日期:2012-04-20
  作者简介:吴晖,硕士,馆员,技术部副主任。
  稿件来源:“2012中国高校图书馆发展论坛暨数字图书馆前沿问题高级研讨班”论文三等奖。
其他文献
任何一种蔬菜种子,都有其安全有限的使用期,只有在有效期内使用,才能确保苗齐、苗壮、高产稳产。一般说来,新种子发芽率高、发芽势强,播种后易苗齐、苗壮。而陈种子发芽率低,
《小学语文新课程标准》明确指出:"语文课程应植根于现实,面向世界,面向未来。应拓宽语文学习和运用的领域,注重跨学科的学习和现代科技手段的运用……"。并指出:"努力建设开放而
执教于南京艺术学院的胡华令教授,出生于安徽歙县,在他的书画创作生涯中,以饱含乡情的笔墨写就的黄山山水画见长。作品胶合写实与写意笔墨、融汇传统与时代精神而自成一格,并因此
明清之际,在西画东渐的刺激之下.中国画家开始探究以文人笔墨为主的传统绘画与西方写实绘画的关系问题。与二十世纪中国画中采用西法写实的路线相比较,前后两个时期的策略历程既
近几年来,交互式电子白板开始走进中小学,但大多数电子白板只是走进了专用教室,每所学校也只有一两块而已,并没能迅速地走进每间普通教室,对其中的原因进行了一些思考,并尝试
品种区域试验和品种审定是品种推广的基础,是农作物品种管理中的主要内容和方式。通过区域试验,能鉴定蚕豆新品种的抗逆性、丰产性、成熟期和品质等,为品种审定和推广提供科学依
在河西内陆灌区的制种玉米田上,采用田间试验,研究了不同梯度保水剂施用量与土壤蓄水量和制种玉米经济效益间的关系,结果表明:随着保水剂施用量的增加,土壤蓄水量和制种玉米穗粒数
摘 要:阐述了基于工作过程学习情境的设计理念与设计思路,重点强调了教学方法的改变与教学内容的挑选设计,以及学习情境的设计流程。举出一个学习情境设计实例,对具体的教学实施过程进行了说明,并分析了教学方法改革对学生和教师起到的积极促进作用。这一学习情境设计实例也为学生综合职业素质的培养提供了借鉴。  关键词:学习情境;学习领域;教学改革;职业素质
2012年5月11日至13日,在长春国际会展中心举办的第63届中国教育装备展示会上,一汽客车正式推出三款校车:9米长头校车、7.5米长头校车和7米平头校车,三款校车各有特点,均为一汽