论文部分内容阅读
摘要:本文主要从基于本体扩展的XML查询代数和基于本体集成的XML查询重写两个机制来研究基于语义的XML数据库获取机制。
关键词:XML数据库;查询代数;查询重写;获取机制
中图分类号:TP311.11 文献标识码:A 文章编号:1674-7712 (2012) 12-0059-02
一、引言
语义分析是自然语言处理过程中的一个层次,是计算机理解语言的基础,因而十分重要。从自然语言处理的应用来看,信息获取、信息检索、机器翻译、自动文摘、人机交互等都应用到了语义分析,并且语义分析在这些方面也取得了一定的成果。基于现有语料库和语言现象分析,笔者主要从基于本体扩展的XML查询代数和基于本体集成的XML查询重写两个机制来研究基于语义的XML数据库获取机制。
二、基于本体扩展的XML查询代数
目前,人们已经提出了很多XML代数,著名的有:TAX,Xtasy,TTX等。其中TAX是扩展标记语言的树形代数(Tree Algebra for XML),它是关系代数的一个扩展,应用在TIMBER XML数据库管理系统中。Xtasy介绍了Xtasy XML数据库管理系统的基本代数,具有良好的优化特性和表达能力。TTX是一种针对XML文档的标记文本检索查询语言(Typed Text Retrieval Query Language for XML Documents),能够较好地支持网络和数据库相关的应用。
笔者综合了XML代数表示方法,并对其进行了一定的扩充。主要思想如下:
(一)主体上采用TAX XML代数的表示方式,即在XML代数中引入Pattern Tree和Witness Tree,并结合OrientXA对它进行了一定的扩充,将整个查询由三个Pattern Tree来定义,用Source Pattern Tree来表示查询动作或意向序列,用Constructor Pattern Tree来表示对结果的构造序列,用Update Pattern Tree来表示查询的更新操作序列。Witness Tree是Source Pattern Tree的实例。
(二)在Pattern Tree的定义了结合XTasy、OrientXA的成果,即:①对于每一个节点,定义新的修饰符,主要是为了区别是节点绑定还是序列绑定,区分强绑定和弱绑定,并且区分是否连带进行子孙节点绑定。②对于每一条边,定义三种类型,即父子边、子孙边和元素属性边。
(三)新增了适用于本体查询的操作符如~,instance_of、isa。is_part_of、below、above等。重新定义了大部分操作的语义及实现机制。
(四)扩充了TAX中关于Wintness Tree的定义,使它支持基于本体的操作。
下面笔者将对几个概念的重新定义如下:
1.Source Pattern Tree
一个Source Pattern Tree是一个二元组SPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
(1)每个节点有一个惟一的标识符,并且有以下修饰符:①是否序列绑定?用双圆圈表示序列绑定,用单圆圈表示节点绑定;②是否强绑定?用实线圆圈表示强绑定,虚线圆圈表示弱绑定;③是否连带绑定所有子孙节点?用P表示需要连带绑定所有子孙节点。
(2)每一条边表达了节点之间的关系,存在三种类型关系:①父子关系,用单实线表示;②祖先后代关系,用双实线表示;③元素属性边,用单虚线表示。
2.Constructor Pattern Tree
一个Constructor Pattern Tree是一个二元组CPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
(1)节点定义如下:
V:=v(TagName)[=val]|c(PID)
val:=atom|PID
其中,v(TagName)=val表示新建一个节点,节点名为TagName,节点值为val:c(PID)表示拷贝input pattern tree上特定PID节点。包括节点名、节点值以及所有子孙节点。
(2)节点同时具有以下修饰符:是否序列构造,用双圆圈表示序列构造。序列构造只适用于拷贝构造节点。
3.Update Pattern Tree
一个Update Pattern Tree是一个二元组UPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
(1)节点定义如下:
V:=u(v.TagName)=val
|u(v.TagName)=v.TagName
|n(TagName)[=val]
|d(TagName)
(2)节点同时具有以下修饰符:是否序列构造,用双圆圈表示序列构造。序列构造只适用于拷贝构造节点。
由于在XML代数中引入了本体及语义相似性判断机制,因此需要重新定义条件判数据操作符及条件判断的可满足性。因此,我们首先对TAX中的选择条件(selection condition)进行扩展,满足本体和语义映射及语义相似性判别的要求。
4.选择条件(Selection condition)满足下列条件即为选择条件:
(1)原子条件即为选择条件。
(2)如果cl和c2为选择条件,则cl∧∨c2、cl∨c2和、┐c1为选择条件。
(3)除此以外,不再有其他形式的选择条件。
其中,原子条件(Atomic condition)由类似于X op Y的表达式组成。
(1)op∈(=,≠,<,≤,>,≥,~,instance_of,isa,is_part_of,below,above); (2)X和Y为条件术语,包括属性(attribute)、类型(type)、类型取值(type values)v:τ,其中V∈dom(τ),本体语义等。
(3)~表示语义相似性判断。
三、基于本体集成的查询重写
在基于本体集成的环境下,在中介者组件中提供一个全局的语义环境,该语义环境通过前面所介绍的本体集成方法来构建,因此查询递交给各个节点来执行时,首先根据语义环境对查询进行重写。本节重点介绍基于全局本体的查询重写机制。
为简化讨论过程,本文只讨论选择(Selection)操作的重写机制,在OrientXA中,一个选择操作可以表示为 (X)={x,x 在此,笔者讨论对Pattern Tree(即上面表达式中的x)进行重写的问题,可能会有下面几种情况:(1)X与Xl,X2,…,Xn概念同属于全局本体的上一个节点,而且Xi(1≤i≤n)分别属于不同局部本体的概念,即在进行本体集成时,来源于不同本体之间的概念语义相似度相同多个概念熔合为一个节点。
四、结束语
基于语义的XML数据库获取机制有如下的优点:
(一)本文所介绍的方法部分地解决了查询中语义不一致的问题(Semantic Inconsistency),特别是语义不完全或语义缺失的问题。一个概念如果有部分属性值并不在本地本体中进行表述,而在另一个节点的本体中进行了描述,通过复杂映射机制,可以将两个本体进行合并形成一个完整的概念,相应的查询重写机制保证能完整地从两个节点获取满意的结果。
(二)减小查询的冗余度,提高查询效率,对于分布于不同节点的概念之间如果存在相同的属性,则无须重新获取这些相同属性的值。
(三)查询更加精确,通过语义相似度及扩展语义查询操作符可以获取更符合需要的结果。
然而,采用这种机制进行数据处理也存在一些需要改进的地方,主要表现在下面几个方面:
(1)首先是如何提高各局部节点包装器的语义映射表的复用的问题,各局部节点映射表中可能包含着相同的语义映射信息,造成信息的冗余,如何提高这些信息的利用率是一个需要进一步探讨的问题。
(2)语义不一致的问题依然存在,例如各节点之间的语义映射关系相互矛盾。
参考文献
[1]龚慧.基于语义的XML模式到关系模式的转换[D].湖南师范大学,2009
[2]蔺旭东.基于语义的XML查询及规范化研究[D].北京交通大学,2010
[作者简介]陈晓飞(1975-),女,新疆尉犁县人,硕士,新疆工业高等专科学校计算机工程系,讲师,研究方向:计算机应用。
关键词:XML数据库;查询代数;查询重写;获取机制
中图分类号:TP311.11 文献标识码:A 文章编号:1674-7712 (2012) 12-0059-02
一、引言
语义分析是自然语言处理过程中的一个层次,是计算机理解语言的基础,因而十分重要。从自然语言处理的应用来看,信息获取、信息检索、机器翻译、自动文摘、人机交互等都应用到了语义分析,并且语义分析在这些方面也取得了一定的成果。基于现有语料库和语言现象分析,笔者主要从基于本体扩展的XML查询代数和基于本体集成的XML查询重写两个机制来研究基于语义的XML数据库获取机制。
二、基于本体扩展的XML查询代数
目前,人们已经提出了很多XML代数,著名的有:TAX,Xtasy,TTX等。其中TAX是扩展标记语言的树形代数(Tree Algebra for XML),它是关系代数的一个扩展,应用在TIMBER XML数据库管理系统中。Xtasy介绍了Xtasy XML数据库管理系统的基本代数,具有良好的优化特性和表达能力。TTX是一种针对XML文档的标记文本检索查询语言(Typed Text Retrieval Query Language for XML Documents),能够较好地支持网络和数据库相关的应用。
笔者综合了XML代数表示方法,并对其进行了一定的扩充。主要思想如下:
(一)主体上采用TAX XML代数的表示方式,即在XML代数中引入Pattern Tree和Witness Tree,并结合OrientXA对它进行了一定的扩充,将整个查询由三个Pattern Tree来定义,用Source Pattern Tree来表示查询动作或意向序列,用Constructor Pattern Tree来表示对结果的构造序列,用Update Pattern Tree来表示查询的更新操作序列。Witness Tree是Source Pattern Tree的实例。
(二)在Pattern Tree的定义了结合XTasy、OrientXA的成果,即:①对于每一个节点,定义新的修饰符,主要是为了区别是节点绑定还是序列绑定,区分强绑定和弱绑定,并且区分是否连带进行子孙节点绑定。②对于每一条边,定义三种类型,即父子边、子孙边和元素属性边。
(三)新增了适用于本体查询的操作符如~,instance_of、isa。is_part_of、below、above等。重新定义了大部分操作的语义及实现机制。
(四)扩充了TAX中关于Wintness Tree的定义,使它支持基于本体的操作。
下面笔者将对几个概念的重新定义如下:
1.Source Pattern Tree
一个Source Pattern Tree是一个二元组SPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
(1)每个节点有一个惟一的标识符,并且有以下修饰符:①是否序列绑定?用双圆圈表示序列绑定,用单圆圈表示节点绑定;②是否强绑定?用实线圆圈表示强绑定,虚线圆圈表示弱绑定;③是否连带绑定所有子孙节点?用P表示需要连带绑定所有子孙节点。
(2)每一条边表达了节点之间的关系,存在三种类型关系:①父子关系,用单实线表示;②祖先后代关系,用双实线表示;③元素属性边,用单虚线表示。
2.Constructor Pattern Tree
一个Constructor Pattern Tree是一个二元组CPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
(1)节点定义如下:
V:=v(TagName)[=val]|c(PID)
val:=atom|PID
其中,v(TagName)=val表示新建一个节点,节点名为TagName,节点值为val:c(PID)表示拷贝input pattern tree上特定PID节点。包括节点名、节点值以及所有子孙节点。
(2)节点同时具有以下修饰符:是否序列构造,用双圆圈表示序列构造。序列构造只适用于拷贝构造节点。
3.Update Pattern Tree
一个Update Pattern Tree是一个二元组UPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
(1)节点定义如下:
V:=u(v.TagName)=val
|u(v.TagName)=v.TagName
|n(TagName)[=val]
|d(TagName)
(2)节点同时具有以下修饰符:是否序列构造,用双圆圈表示序列构造。序列构造只适用于拷贝构造节点。
由于在XML代数中引入了本体及语义相似性判断机制,因此需要重新定义条件判数据操作符及条件判断的可满足性。因此,我们首先对TAX中的选择条件(selection condition)进行扩展,满足本体和语义映射及语义相似性判别的要求。
4.选择条件(Selection condition)满足下列条件即为选择条件:
(1)原子条件即为选择条件。
(2)如果cl和c2为选择条件,则cl∧∨c2、cl∨c2和、┐c1为选择条件。
(3)除此以外,不再有其他形式的选择条件。
其中,原子条件(Atomic condition)由类似于X op Y的表达式组成。
(1)op∈(=,≠,<,≤,>,≥,~,instance_of,isa,is_part_of,below,above); (2)X和Y为条件术语,包括属性(attribute)、类型(type)、类型取值(type values)v:τ,其中V∈dom(τ),本体语义等。
(3)~表示语义相似性判断。
三、基于本体集成的查询重写
在基于本体集成的环境下,在中介者组件中提供一个全局的语义环境,该语义环境通过前面所介绍的本体集成方法来构建,因此查询递交给各个节点来执行时,首先根据语义环境对查询进行重写。本节重点介绍基于全局本体的查询重写机制。
为简化讨论过程,本文只讨论选择(Selection)操作的重写机制,在OrientXA中,一个选择操作可以表示为 (X)={x,x
四、结束语
基于语义的XML数据库获取机制有如下的优点:
(一)本文所介绍的方法部分地解决了查询中语义不一致的问题(Semantic Inconsistency),特别是语义不完全或语义缺失的问题。一个概念如果有部分属性值并不在本地本体中进行表述,而在另一个节点的本体中进行了描述,通过复杂映射机制,可以将两个本体进行合并形成一个完整的概念,相应的查询重写机制保证能完整地从两个节点获取满意的结果。
(二)减小查询的冗余度,提高查询效率,对于分布于不同节点的概念之间如果存在相同的属性,则无须重新获取这些相同属性的值。
(三)查询更加精确,通过语义相似度及扩展语义查询操作符可以获取更符合需要的结果。
然而,采用这种机制进行数据处理也存在一些需要改进的地方,主要表现在下面几个方面:
(1)首先是如何提高各局部节点包装器的语义映射表的复用的问题,各局部节点映射表中可能包含着相同的语义映射信息,造成信息的冗余,如何提高这些信息的利用率是一个需要进一步探讨的问题。
(2)语义不一致的问题依然存在,例如各节点之间的语义映射关系相互矛盾。
参考文献
[1]龚慧.基于语义的XML模式到关系模式的转换[D].湖南师范大学,2009
[2]蔺旭东.基于语义的XML查询及规范化研究[D].北京交通大学,2010
[作者简介]陈晓飞(1975-),女,新疆尉犁县人,硕士,新疆工业高等专科学校计算机工程系,讲师,研究方向:计算机应用。