基于RDF本体的XML数据集成框架

来源 :硅谷 | 被引量 : 0次 | 上传用户:javawm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]提出一个基于RDF本体[1]的XML语义集成框架,在所有参与集成的XML数据源之间建立起语义互联,并为用户提供一个统一数据查询视图。文中以框架的体系结构和功能实现为主线,介绍了本体及映射构建过程和集成环境中不同查询模式的处理过程。
  [关键词]语义集成 本体 RDF 查询重写
  中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2008)1120041-01
  
  一、引言
  
  本文在中介器模式[2]基础上引入了本体和双重映射[4]机制,提出了一个基于RDF的XML[3]数据集成框架,克服了GaV[2]和LaV[2]数据集成模式的不足。
  
  二、方案概述
  
  本集成框架分为数据包装层、集成中介层和应用层,利用中介器模式保证数据源自治性,同时在中介层建立本体库,利用本体技术改善查询效率加强语义管理。
  数据包装层通过对底层数据源进行封装,提供给中介层一个统一的接口,实现不同的数据源与接口之间的映射。
  集成中介层主要有查询处理器和本体库,集成各数据源的局部模式,向用户提供统一的逻辑视图。
  其中,查询处理器负责接收执行并反馈用户查询;查询转换模块将查询转换为RDQL[4]格式,并进行查询方案选择,绑定相关变量发送给查询分解器。查询分解模块接受查询后,根据推理机规则将全局模式查询转换为基于Xquery[5]的子查询,并由查询合成模块将结果组装返回给用户。
  1.本体库在本体管理器的控制下完成对.owl本体文件和映射表文件的存储、更新与维护。
  2.推理机根据本体库中的推理规则返回查询概念语义相似或相关对象。
  
  三、基于本体的用户视图构建
  
  通过在数据集成中引入本体定义公共本体使结构独立查询成为可能,另外本体进化理论和推理规则的运用也使查询质量得到提高。
  (一)用户视图的建立与管理
  为解决GaV数据集成模式在数据源扩充上的不足,系统将领域本体概念引入中介模式构建本体视图。利用领域本体的通用性和稳定性在数据源不确定的情况下更新视图,组织查询加强了数据动态查询处理能力。
  为了将用户视图生成过程规范化,我们先给出本体视图的形式化定义。
  定义1.局部本体OL视图为五元组 (C,R,V,M,P),C为OL中的概念集合;R为OL概念间关系集合;V:OL内概念关系间约束的一阶谓词公式集合;M:全局本体视图间关系的一组谓词命题;P:C中概念与全局本体视图概念间关系一组谓词命题集合。
  本体图可以理解为去除外界限定的本体视图,本体图是一个由P中的C和R构成的有向标定图,图中的节点为C中的概念,边为R中的关系。V是本体内部对应的公理集合,是进行本体内部一致性检验的依据。
  方案采用混合本体法[6]建立全局本体的步骤可表述如下:
  1.对局部本体视图P1,P2,…,Pn中的本体图做并操作得到全局本体的本体图G,并将P1,P2,…,Pn的M中的关联断言和由启发式规则得到的概念间关系加入到G中。
  2.对本体图G进行评价和修改(增、删、修改概念与关系)。
  3.选择P1,P1,…,Pn的V中与G相关且不冲突的公理作为全局本体的公理。
  (二)本体映射
  方案以N3项目中使用的RDF映射框架为基础,采用路径到路径的映射方法建立映射规则,保证在不影响全局视图只修改映射关系确保查询分解的正确性。
  由于全局视图查询将采用基于RDF模式的RDQL,所以局部本体到全局本体的映射采用概念对概念的方式,以便于后期的查询分解。对于不能直接对应的概念,使用映射函数对概念进行合并后再映射。映射表的生成规则为:
  (1)全局本体中的一个类、属性或类间的关系p由不同局部本体中的pi与pj合并生成,产生映射关系(p,pi,pj)。
  (2)全局本体中的类或属性p复制自某个局部本体的类或属性pi,产生映射关系(p,pi)。
  
  四、查询处理
  
  利用系统应用层接口,用户可以基于全局视图和本地视图两种模式获取数据源信息并提交查询,系统采用RDQL作为视图查询语言,使用XQuery建立对XML源的查询。在接下来的讨论中我们用M表示全局本体和局部本体间的映射表,Qg表示输入的RDQL全局本体查询,Qr表示局部本体上的中介查询,Qx表示对XML源的XQuery输出查询。
  (一)基于全局模式的查询重写
  全局模式下查询转化的关键是全局映射表,通过加载该表将使用全局本体术语定义的全局查询映射成为使用各局部本体术语表示的子查询集。首先我们需要根据select子句和where子句中所示的概念找到在全局RDF图模型中匹配的路径表达式和三元组。整个查询重写可以分为以下几个步骤:
  1.把查询接收器生成的RDQL语句Qg转换为标准三元组P(Pc,Pw,Ps);Select子句中的RDF表达式放入集合Ps,where子句和AND子句中的RDF表达式放入集合Pw。
  2.用局部本体Ri对应的RDF路径替换P中原有的路径,同时以同种方式更新Ps和Pw。
  3.Qg→Qr
  (1)Where子句,通过Ri找到一个覆盖P中的所有路径表达式的一个非循环的子图,并把所有的特性放进一个集合E。对于E中的每个ei,添加一个形如(?si,ei,?oi)的三元组到Where子句中;
  (2)Selecte和And子句,用它们在Ri中的相应路径简单地替换在子句中的RDF路径,然后把每个路径与一个变量绑定。
  4.找到Ps和Pw中各个元素相对应的XPath表达式。
  5.对每个XML数据源构造目标查询Qx。
  (1)Let子句:输出Let$:=doc(“”);
  (2)For子句:对每个piPw'Ps',输出””Forin
  (3)Where子句:将Qr中所有约束条件的并集作为Where子句中的约束表达式。
  (4)Return子句:将集合Ps'中的元素直接拷贝到Return子句。
  6.如果Qx中含绝对XPath,用v替换pi中等值部分,pi转化成相对XPath。
  (二)基于本地模式的查询重写
  本地模式查询须使用双向查询转化,即将对数据源的Xqury查询先转化为对用户视图的RDF查询,再转化为XML查询的过程。查询转换的可逆性定理[3]可以保证这种双向转化的正确性,在此不多作讨论。
  
  五、结论
  
  本文针对XML在数据语义表达及操作上的不足,通过在语义集成中融入本体的思想,构建了基于本体的语义集成方案,将语义元数据与按需检索相结合,提供异构信息源的动态用户视图。
  
  参考文献:
  [1]http://www.w3.org/RDF/.
  [2]http://www.w3.org/XML/.
  [3]Lassila,O.NokiaRes.etc;Webmetadata:amatterofsemanticsInternet
  Computing,IEEEJul/Aug1998Volume:2,Issue:4Onpage(s):30-37.
  [4]http://www.w3.org/Submission/2004/SUBM-RDQL-20040109/.
  [5]http://www.w3.org/TR/xqueryx/.
  [6]http://www.cs.uic.edu/advis/rdfms#.
其他文献
[摘要]电阻电容在线测试实现电阻电容测量的自动化,拓宽测试的量程范围,提高测量的精度。给出电阻电容在线测试的硬件和软件设计。   [关键词]单片机 电阻 电容 在线测试 LCD  中图分类号:TM93 文献标识码:A 文章编号:1671-7597(2008)1120021-01    对电子元器件的检测可分为在线检测合肥在线检测两种。在线检测是用万用表在电路板上直接对元件进行检测。在电路板上,电阻
期刊
[摘要]充分阐述LPC-530型保护器的功能及工作原理,正确认识保护器的作用和功能,对保护低压电动机存在着极为重要的作用。  [关键词]380 V工作段 保护器 功能  中图分类号:TM6 文献标识码:A 文章编号:1671-7597(2008)1120034-02    LPC1-530低压电动机综合保护测控装置主要用于380V低压电动机的保护和测控。为低压电动机提供各类启动和停车控制功能、保护
期刊
[摘要]空间数据挖掘技术(Spatial Data Mining)是建立在空间数据库的基础上,通过使用各种机器学习技术,从海量空间数据中挖掘出未知的有用的规律和知识,从而提供支持决策的依据。在现在已建立的GIS空间数据库中,大量的可分析、分类的知识,如空间位置分布规律、空间关联规则、形态特征区分规则等都隐藏在空间数据中需要被挖掘才能被发现。因此,空间数据挖掘技术就显得尤为重要。因而对于空间数据挖掘
期刊
[摘要]随着科技的发展,电子商务日益成为当前经济活动中的焦点,网络交易也成为热点。与此同时,网络安全却影响这网络交易的进行。分析探讨PKI技术应用于网络交易系统的情况。  [关键词]PKI 网络交易  中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)1120040-01    一、PKI技术简介    (一)何谓PKI技术  所谓PKI(Public Key Infra
期刊
[摘要]简单介绍MPEG四种压缩标准及应用,重点介绍MPEG-2的组成。  [关键词]MPEG-2 帧内压缩 帧间压缩 图像组I帧 B帧P帧  中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)1120022-02    MPEG是活动图像专家组的缩写,成立于1988年,致力于系统标准的制定。  MPEG-1标准是用于存储媒体的活动图像和伴随音频的编码,即在数字存储介质中
期刊
[摘要]针对基于Web的地理信息系统开发难度大,系统不稳定等问题,提出一种中间件技术,此技术在采油工程信息可视化系统中,取得了良好的效果。实践表明,WebGIS中间件可以无缝地嵌入到Web主页,实现网络环境下的GIS应用系统,一方面降低了系统的复杂性,加快了开发速度;另一方面也可以降低成本,增加可维护性。  [关键词]WebGIS 中间件 采油工程  中图分类号:TP3 文献标识码:A 文章编号:
期刊
[摘要]ASP和JSP是目前市场上比较流行的两种动态网页制作技术,二者在理论体系、开发平台、性能、开发效率、与数据库连接及安全性等几个方面各具特色。对asp技术和jsp技术开发web进行详细比较,对目前流行的两种服务器端动态网页技术从原理、性能、应用范围等各个方面作详尽的比较分析研究。  [关键词]Jsp asp web平台 服务器 客户端  中图分类号:TP3 文献标识码:A 文章编号:1671
期刊
[摘要]word2003是现在比较流行的文字处理软件之一,也是Office2003办公套装软件的一个重要组成部分。在日常的工作中,我们可以通过技巧更快捷灵活地使用它。  [关键词]Word2003 使用技巧 快捷灵活  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)1120052-01    在日常工作中,我们经常要做一些文档的处理工作。用Word 2003编辑文档固
期刊
[摘要]web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。论述web数据挖掘的基本概述,基本原理,然后讨论web数据挖掘的实现,最后对web数据挖掘的应用进行阐述。  [关键词]数据挖掘 web 应用   中图分类号:TP
期刊
[摘要]分形理论是对传统几何学的一个延伸,并具有广泛的应用价值。把分形图形用到屏幕保护程序中,能给人耳目一新的感觉,以koch曲线为例,抛砖引玉,简介它的实现方法。  [关键词]VB 分形 屏幕保护  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)1120061-01    分形是由法国数学家曼德勃罗在1975年首次提出的,其原义是“不规则的、分数的、支离破碎”的物体
期刊