论文部分内容阅读
[摘要]提出一个基于RDF本体[1]的XML语义集成框架,在所有参与集成的XML数据源之间建立起语义互联,并为用户提供一个统一数据查询视图。文中以框架的体系结构和功能实现为主线,介绍了本体及映射构建过程和集成环境中不同查询模式的处理过程。
[关键词]语义集成 本体 RDF 查询重写
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2008)1120041-01
一、引言
本文在中介器模式[2]基础上引入了本体和双重映射[4]机制,提出了一个基于RDF的XML[3]数据集成框架,克服了GaV[2]和LaV[2]数据集成模式的不足。
二、方案概述
本集成框架分为数据包装层、集成中介层和应用层,利用中介器模式保证数据源自治性,同时在中介层建立本体库,利用本体技术改善查询效率加强语义管理。
数据包装层通过对底层数据源进行封装,提供给中介层一个统一的接口,实现不同的数据源与接口之间的映射。
集成中介层主要有查询处理器和本体库,集成各数据源的局部模式,向用户提供统一的逻辑视图。
其中,查询处理器负责接收执行并反馈用户查询;查询转换模块将查询转换为RDQL[4]格式,并进行查询方案选择,绑定相关变量发送给查询分解器。查询分解模块接受查询后,根据推理机规则将全局模式查询转换为基于Xquery[5]的子查询,并由查询合成模块将结果组装返回给用户。
1.本体库在本体管理器的控制下完成对.owl本体文件和映射表文件的存储、更新与维护。
2.推理机根据本体库中的推理规则返回查询概念语义相似或相关对象。
三、基于本体的用户视图构建
通过在数据集成中引入本体定义公共本体使结构独立查询成为可能,另外本体进化理论和推理规则的运用也使查询质量得到提高。
(一)用户视图的建立与管理
为解决GaV数据集成模式在数据源扩充上的不足,系统将领域本体概念引入中介模式构建本体视图。利用领域本体的通用性和稳定性在数据源不确定的情况下更新视图,组织查询加强了数据动态查询处理能力。
为了将用户视图生成过程规范化,我们先给出本体视图的形式化定义。
定义1.局部本体OL视图为五元组 (C,R,V,M,P),C为OL中的概念集合;R为OL概念间关系集合;V:OL内概念关系间约束的一阶谓词公式集合;M:全局本体视图间关系的一组谓词命题;P:C中概念与全局本体视图概念间关系一组谓词命题集合。
本体图可以理解为去除外界限定的本体视图,本体图是一个由P中的C和R构成的有向标定图,图中的节点为C中的概念,边为R中的关系。V是本体内部对应的公理集合,是进行本体内部一致性检验的依据。
方案采用混合本体法[6]建立全局本体的步骤可表述如下:
1.对局部本体视图P1,P2,…,Pn中的本体图做并操作得到全局本体的本体图G,并将P1,P2,…,Pn的M中的关联断言和由启发式规则得到的概念间关系加入到G中。
2.对本体图G进行评价和修改(增、删、修改概念与关系)。
3.选择P1,P1,…,Pn的V中与G相关且不冲突的公理作为全局本体的公理。
(二)本体映射
方案以N3项目中使用的RDF映射框架为基础,采用路径到路径的映射方法建立映射规则,保证在不影响全局视图只修改映射关系确保查询分解的正确性。
由于全局视图查询将采用基于RDF模式的RDQL,所以局部本体到全局本体的映射采用概念对概念的方式,以便于后期的查询分解。对于不能直接对应的概念,使用映射函数对概念进行合并后再映射。映射表的生成规则为:
(1)全局本体中的一个类、属性或类间的关系p由不同局部本体中的pi与pj合并生成,产生映射关系(p,pi,pj)。
(2)全局本体中的类或属性p复制自某个局部本体的类或属性pi,产生映射关系(p,pi)。
四、查询处理
利用系统应用层接口,用户可以基于全局视图和本地视图两种模式获取数据源信息并提交查询,系统采用RDQL作为视图查询语言,使用XQuery建立对XML源的查询。在接下来的讨论中我们用M表示全局本体和局部本体间的映射表,Qg表示输入的RDQL全局本体查询,Qr表示局部本体上的中介查询,Qx表示对XML源的XQuery输出查询。
(一)基于全局模式的查询重写
全局模式下查询转化的关键是全局映射表,通过加载该表将使用全局本体术语定义的全局查询映射成为使用各局部本体术语表示的子查询集。首先我们需要根据select子句和where子句中所示的概念找到在全局RDF图模型中匹配的路径表达式和三元组。整个查询重写可以分为以下几个步骤:
1.把查询接收器生成的RDQL语句Qg转换为标准三元组P(Pc,Pw,Ps);Select子句中的RDF表达式放入集合Ps,where子句和AND子句中的RDF表达式放入集合Pw。
2.用局部本体Ri对应的RDF路径替换P中原有的路径,同时以同种方式更新Ps和Pw。
3.Qg→Qr
(1)Where子句,通过Ri找到一个覆盖P中的所有路径表达式的一个非循环的子图,并把所有的特性放进一个集合E。对于E中的每个ei,添加一个形如(?si,ei,?oi)的三元组到Where子句中;
(2)Selecte和And子句,用它们在Ri中的相应路径简单地替换在子句中的RDF路径,然后把每个路径与一个变量绑定。
4.找到Ps和Pw中各个元素相对应的XPath表达式。
5.对每个XML数据源构造目标查询Qx。
(1)Let子句:输出Let$:=doc(“”);
(2)For子句:对每个piPw'Ps',输出””Forin”
(3)Where子句:将Qr中所有约束条件的并集作为Where子句中的约束表达式。
(4)Return子句:将集合Ps'中的元素直接拷贝到Return子句。
6.如果Qx中含绝对XPath,用v替换pi中等值部分,pi转化成相对XPath。
(二)基于本地模式的查询重写
本地模式查询须使用双向查询转化,即将对数据源的Xqury查询先转化为对用户视图的RDF查询,再转化为XML查询的过程。查询转换的可逆性定理[3]可以保证这种双向转化的正确性,在此不多作讨论。
五、结论
本文针对XML在数据语义表达及操作上的不足,通过在语义集成中融入本体的思想,构建了基于本体的语义集成方案,将语义元数据与按需检索相结合,提供异构信息源的动态用户视图。
参考文献:
[1]http://www.w3.org/RDF/.
[2]http://www.w3.org/XML/.
[3]Lassila,O.NokiaRes.etc;Webmetadata:amatterofsemanticsInternet
Computing,IEEEJul/Aug1998Volume:2,Issue:4Onpage(s):30-37.
[4]http://www.w3.org/Submission/2004/SUBM-RDQL-20040109/.
[5]http://www.w3.org/TR/xqueryx/.
[6]http://www.cs.uic.edu/advis/rdfms#.
[关键词]语义集成 本体 RDF 查询重写
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2008)1120041-01
一、引言
本文在中介器模式[2]基础上引入了本体和双重映射[4]机制,提出了一个基于RDF的XML[3]数据集成框架,克服了GaV[2]和LaV[2]数据集成模式的不足。
二、方案概述
本集成框架分为数据包装层、集成中介层和应用层,利用中介器模式保证数据源自治性,同时在中介层建立本体库,利用本体技术改善查询效率加强语义管理。
数据包装层通过对底层数据源进行封装,提供给中介层一个统一的接口,实现不同的数据源与接口之间的映射。
集成中介层主要有查询处理器和本体库,集成各数据源的局部模式,向用户提供统一的逻辑视图。
其中,查询处理器负责接收执行并反馈用户查询;查询转换模块将查询转换为RDQL[4]格式,并进行查询方案选择,绑定相关变量发送给查询分解器。查询分解模块接受查询后,根据推理机规则将全局模式查询转换为基于Xquery[5]的子查询,并由查询合成模块将结果组装返回给用户。
1.本体库在本体管理器的控制下完成对.owl本体文件和映射表文件的存储、更新与维护。
2.推理机根据本体库中的推理规则返回查询概念语义相似或相关对象。
三、基于本体的用户视图构建
通过在数据集成中引入本体定义公共本体使结构独立查询成为可能,另外本体进化理论和推理规则的运用也使查询质量得到提高。
(一)用户视图的建立与管理
为解决GaV数据集成模式在数据源扩充上的不足,系统将领域本体概念引入中介模式构建本体视图。利用领域本体的通用性和稳定性在数据源不确定的情况下更新视图,组织查询加强了数据动态查询处理能力。
为了将用户视图生成过程规范化,我们先给出本体视图的形式化定义。
定义1.局部本体OL视图为五元组 (C,R,V,M,P),C为OL中的概念集合;R为OL概念间关系集合;V:OL内概念关系间约束的一阶谓词公式集合;M:全局本体视图间关系的一组谓词命题;P:C中概念与全局本体视图概念间关系一组谓词命题集合。
本体图可以理解为去除外界限定的本体视图,本体图是一个由P中的C和R构成的有向标定图,图中的节点为C中的概念,边为R中的关系。V是本体内部对应的公理集合,是进行本体内部一致性检验的依据。
方案采用混合本体法[6]建立全局本体的步骤可表述如下:
1.对局部本体视图P1,P2,…,Pn中的本体图做并操作得到全局本体的本体图G,并将P1,P2,…,Pn的M中的关联断言和由启发式规则得到的概念间关系加入到G中。
2.对本体图G进行评价和修改(增、删、修改概念与关系)。
3.选择P1,P1,…,Pn的V中与G相关且不冲突的公理作为全局本体的公理。
(二)本体映射
方案以N3项目中使用的RDF映射框架为基础,采用路径到路径的映射方法建立映射规则,保证在不影响全局视图只修改映射关系确保查询分解的正确性。
由于全局视图查询将采用基于RDF模式的RDQL,所以局部本体到全局本体的映射采用概念对概念的方式,以便于后期的查询分解。对于不能直接对应的概念,使用映射函数对概念进行合并后再映射。映射表的生成规则为:
(1)全局本体中的一个类、属性或类间的关系p由不同局部本体中的pi与pj合并生成,产生映射关系(p,pi,pj)。
(2)全局本体中的类或属性p复制自某个局部本体的类或属性pi,产生映射关系(p,pi)。
四、查询处理
利用系统应用层接口,用户可以基于全局视图和本地视图两种模式获取数据源信息并提交查询,系统采用RDQL作为视图查询语言,使用XQuery建立对XML源的查询。在接下来的讨论中我们用M表示全局本体和局部本体间的映射表,Qg表示输入的RDQL全局本体查询,Qr表示局部本体上的中介查询,Qx表示对XML源的XQuery输出查询。
(一)基于全局模式的查询重写
全局模式下查询转化的关键是全局映射表,通过加载该表将使用全局本体术语定义的全局查询映射成为使用各局部本体术语表示的子查询集。首先我们需要根据select子句和where子句中所示的概念找到在全局RDF图模型中匹配的路径表达式和三元组。整个查询重写可以分为以下几个步骤:
1.把查询接收器生成的RDQL语句Qg转换为标准三元组P(Pc,Pw,Ps);Select子句中的RDF表达式放入集合Ps,where子句和AND子句中的RDF表达式放入集合Pw。
2.用局部本体Ri对应的RDF路径替换P中原有的路径,同时以同种方式更新Ps和Pw。
3.Qg→Qr
(1)Where子句,通过Ri找到一个覆盖P中的所有路径表达式的一个非循环的子图,并把所有的特性放进一个集合E。对于E中的每个ei,添加一个形如(?si,ei,?oi)的三元组到Where子句中;
(2)Selecte和And子句,用它们在Ri中的相应路径简单地替换在子句中的RDF路径,然后把每个路径与一个变量绑定。
4.找到Ps和Pw中各个元素相对应的XPath表达式。
5.对每个XML数据源构造目标查询Qx。
(1)Let子句:输出Let$
(2)For子句:对每个piPw'Ps',输出””For
(3)Where子句:将Qr中所有约束条件的并集作为Where子句中的约束表达式。
(4)Return子句:将集合Ps'中的元素直接拷贝到Return子句。
6.如果Qx中含绝对XPath,用v替换pi中等值部分,pi转化成相对XPath。
(二)基于本地模式的查询重写
本地模式查询须使用双向查询转化,即将对数据源的Xqury查询先转化为对用户视图的RDF查询,再转化为XML查询的过程。查询转换的可逆性定理[3]可以保证这种双向转化的正确性,在此不多作讨论。
五、结论
本文针对XML在数据语义表达及操作上的不足,通过在语义集成中融入本体的思想,构建了基于本体的语义集成方案,将语义元数据与按需检索相结合,提供异构信息源的动态用户视图。
参考文献:
[1]http://www.w3.org/RDF/.
[2]http://www.w3.org/XML/.
[3]Lassila,O.NokiaRes.etc;Webmetadata:amatterofsemanticsInternet
Computing,IEEEJul/Aug1998Volume:2,Issue:4Onpage(s):30-37.
[4]http://www.w3.org/Submission/2004/SUBM-RDQL-20040109/.
[5]http://www.w3.org/TR/xqueryx/.
[6]http://www.cs.uic.edu/advis/rdfms#.