论文部分内容阅读
2001年5月,Tim Berners-Lee在《科学美国人》杂志上发表了题为“TheSemantic Web"的论文,系统论述了语义网的蓝图,他认为:“语义网并非是另一个独立的Web,而是对现有Web的延伸,所有的信息都具有定义完好的含义,更利于人与机器之间的合作。”由此可知,语义网相较于现有万维网的最大优势是——“机器可理解”。它对Web的扩展使得Web具有知识可理解能力及一定的推理和自动处理能力。在语义网出现的十多年间,语义网的各项技术标准得到制定和完善,各种语义网实现工具也相继出现,这为语义网应用的开发起到了积极作用。语义网应用依赖于语义网技术标准(如RDF, RDFS, OWL, SPARQL等),其中必须使用RDF数据模型,同时提供用户界面供终端用户与应用程序进行交互。首先,对国内外的语义网应用及框架进行文献调研。目前国内外的研究主要有两类,第一类属“理论研究”,即根据个案研究或参考沿用Web应用的框架和方法来搭建语义网应用框架,此类框架主要针对具体的应用类型,如语义门户、语义Web服务、语义搜索引擎等,针对性较强,通用性较差。第二类属“实证研究”,主要是对现有语义网应用进行调研,提炼出应用的共性和通用功能组件,并结合逻辑关系来搭建语义网应用框架,此类框架与应用领域无关,与应用类型无关,所以通用性较强,参考价值较高。目前,国内还没有此类实证研究,这也正是本文想要弥补的研究空白,希望通过此框架,为语义网应用开发者提供参考,减小开发难度,缩短开发周期。其次,对语义网应用的定义及语义网应用分类进行简单的综述之后,根据对"The Semantic Web Challenge"2008年-2013年的84个应用进行调研,主要涉及到以下7个方面,调研结果显示:(1)常用的应用类型:搜索引擎、工具类、社交应用、推荐系统、Mash-up、专家系统、语义门户、LOD浏览、Web服务等。(2)应用领域主要涉及生物医学、地理空间、科研、UGC、政府信息、音/视频、档案、生活领域等。(3)应用终端:随着智能手机的发展,手机应用越来越成为人们生活的必须,语义网应用也开始重视手机端的发展。同时,用户对交互界面的要求越来越高,不仅要能用,还要好用、易用,对用户体验提出了更高的要求。(4)语义网技术与标准的使用情况:几乎所有的应用都通过RDF来描述数据,绝大多数应用使用OWL来构建知识模型,使用SPAQRL来查询RDF数据。(5)数据访问情况:这些应用使用的数据几乎都满足分布式和异构数据的要求,也就是说使用的数据是分布存储在不同地点和环境中的各类数字资源、概念体系等,并且处理的数据模型在两种或者两种以上。(6)数据集成方式和推理:由于使用的数据集较多,数据模型各不相同,所以需要数据集成,以统一的数据模型进行处理,现在主要以自动集成为主,但还是有小部分应用使用半自动方式来实现数据集成。有一半左右的应用具有推理功能。(7)用户编辑内容:随着Web2.0的发展,用户不仅仅是被动获取信息,更多的是主动创建、生成内容,所以有26%的应用支持用户编辑内容,用户可以修改或是添加数据。基于调研数据,从中提炼出比较常见的功能组件,数量由多到少排序分别是:语义搜索、数据适配器、数据集成、三元组存储、用户界面、数据转化。这6个组件使用率高达94%以上,所以是语义网应用框架中必须包括的功能。其次是语义标引和语义推理,使用率在48%以上,也应该考虑加入。网络爬虫和用户编辑内容使用率在26%以上,需要根据应用的具体情况来考虑是否使用。基于以上常用功能,根据数据的流向逻辑,构建一个通用的语义网应用框架,最后基于本文提出的框架设计一个面向关联数据的数字图书馆框架,来验证本文提出框架的可行性和有效性。