论文部分内容阅读
摘要:Deep Web数据源发现是指从Web中搜索到含有Web数据库的Deep Web站点。查询接口作为Deep Web数据源信息访问的唯一入口,发现工作更多地转向了对查询接口的判定。本文在处理时,首先构建领域本体模型,并利用HowNet语义知识辞典进行语义相似度计算,完成查询接口判定工作,同时通过启发式规则提高查询接口判定的效率。
关键词:Deep Web本体;语义相似度;启发式规则
中图分类号:TP391.1 文献标识码:A 文章编号:1007-9599 (2012) 20-0000-02
Deep Web数据源发现一般指从Web中搜索到含有后台数据库的Deep Web站点,具体工作包括Web页面爬取、表单特征抽取、查询接口判定等部分,涉及的主要概念有:
定义1. Deep Web数据源(Deep Web Data Source, WDS)可以描述为一个三元组:WDS=(I, R, D)。其中:
(1)I指Deep Web数据源查询接口,即用户提交查询的入口;(2)R指通过查询接口提交查询请求后Deep Web数据源返回的结果集;(3)D指Deep Web数据源后台数据库。
定义2. Deep Web查询接口(Query Interface,QI)用I表示,可以描述为:I=(I_Name,Attributes,Number),其中:
(1)I_Name指抽取得到的查询接口名称;(2)Attributes定义为一个二元组数据集合,表示查询接口中所有的属性名-值信息,Attributes={a1, a2……an}。其中,ai=(Name, Values),Name为属性名称,Values为属性值域。(3)Number表示查询接口中属性数目,用N表示。
定义3.页面表单(Page Interface,PI)可以描述为一个四元祖:PI=(ID, PI_Name,Attributes,Number),其中:
(1)ID指页面表单的编号,用于惟一标识一个页面内的某表单;(2)PI_Name为表单名称,Attributes、Number与查询接口中的定义相同。从查询接口与页面表单的定义中可以得到,I∈PI。
定义4.查询接口判定(Query Interface Determining, QID),假设页面Page中同时含有表单:PI1、PI2…,则QID定义为按照一定的方法对所有表单进行判定,看是否有表单是查询接口。
1 本体模型构建
由于Deep Web具有信息量大、异构性等特点,使得Deep Web数据源具有明显的领域限定特点,因此,本文引入领域本体模型辅助完成数据源发现工作。
本体是一个知识表示模型,用于定义一个领域内的基本概念、关系和规则,本体模型构建则是在领域专家的协助下明确领域的概念及概念之间的关系,构建领域本体模型。针对Deep Web查询接口判定工作需要,本文给出了一个本体模型。
定义5.本体模型可以描述为一个六元组(C, T, R1, PI, L, R2),其中:
(1)C表示领域内的一个概念划分,每个概念ci都有取值范围,包含若干个具体取值,且 ,其中i≠j;(2)T为概念Ci的取值范围,有若干具体取值决定,Ci=T={t1,t2…}由此可得Ci至少对应有一个取值结果。(3)R1表示T内取值之间的关系,查询接口的语义信息可以由若干个概念表示,概念则对应一个或多个具体取值,具体取值之间的关系影响其在查询接口中的显示。(4)PI指页面Page内的表单,在表示时用经过语义信息提取后的Attributes值表示;(5)L表示领域本体模型的集合,且有L={l1, l2…,lm},每个具体的领域li用概念C具体表示;(6)R2表示PI与L之间的关系,如果PI是一个查询接口,则定有PI属于某个领域li,否则PI≮L。
2 基于语义相似度的查询接口判定
查询接口作为Deep Web数据源的唯一入口,具有非常高的价值,可以通过判定页面表单是否为查询接口来确定站点是否为Deep Web数据源。本文利用网页表单特征抽取获得表单语义化表示,并在本体模型的基础上采用语义相似度计算方法完成查询接口判定工作。
2.1 网页表单特征抽取
常见的网页表单都是用HTML语言描述,通过分析页面HTML代码,可以发现网页表单的主要内容包含在标签内,标签内的代码为实际表单的HTML代码。
经过表单特征分析后,得到表单对应HTML代码和特征集合。在特征抽取完成后,需要根据特征集合信息提取得到表单的语义信息表示,例如从表单的特征集合中可以获得表单语义表示为:PI=(书名, 作者, 出版社)。
2.2 语义相似度计算
经过特征抽取后,表单可以表示为语义信息,如果一个表单是查询接口,则它的语义信息必定与领域本体模型非常相近。因此,在进行查询接口判定时,需要计算表单语义信息与领域本体模型之间的相似度,本文在HowNet[6-7]的基础上给出了语义相似度计算方法。
定义6.表单PI与领域本体模型li的相似度 ,在计算 时,通过计算表单PI所有语义项与本体模型所有概念之间相似度后给出,方法为:
其中vj为表单PI的语义项。
定义7.目标领域本体模型,计算PI与多个领域本体模型的集合L中各元素的之间的相似度,并取其中相似度最大的本体模型作为PI的目标领域本体模型。用公式描述如下:领域本体模型集合中某一元素为目标领域本体模型lt当且仅当t满足 且 其中β为给定阀值。
定义8.表单PI的语义项vj与领域本体模型li中概念ck的相似度 为语义项vj与概念ck对应概念指V的最大相似度:
定义9.语义项vj与概念ck具体概念值vm的相似度 ,语义项和具体概念值都是由词语表示,因此 值与 相同,其中w1表示vj,w2表示vm,公式描述如下:
定义10.义原相似度 ,义原相似度计算时利用义原之间的距离来衡量,两个义原相似度随着距离增大而减少,参照HowNet义原层次树中的距离计算方法Dis,给出 计算公式: 其中 是可调节参数。
参照定义6至定义10的计算公式,若能得到表单PI与领域本体模型集合L中最为匹配度且相似度大于阈值的目标领域本体模型,则定义表单PI为查询接口。否则,PI不是一个查询接口。同时本文为了进一步提高查询接口判定的效率,在实际处理时通过启发式规则辅助完成接口判定,所采用的启发式规则如下:
(1)用n表示页面表单中控件数目,给定一个阀值N,对于 n 3 结语
基于本体和语义相似度的数据源发现方法,利用了领域背景知识和语义计算方法,以及启发式规则,取得了较好的实验效果,平均准确率达到了86.6%,具有很好的可行性和有效性。
参考文献:
[1]方巍,胡鹏昱,赵朋朋,崔志明.基于语义的Deep Web数据源自动发现技术[J].微电子学与计算机,2007,Vol 24(9):1799-1802.
[作者简介]
卓林(1986-)男,汉,江苏省徐州市人,硕士研究生,从事智能化信息处理工作。
关键词:Deep Web本体;语义相似度;启发式规则
中图分类号:TP391.1 文献标识码:A 文章编号:1007-9599 (2012) 20-0000-02
Deep Web数据源发现一般指从Web中搜索到含有后台数据库的Deep Web站点,具体工作包括Web页面爬取、表单特征抽取、查询接口判定等部分,涉及的主要概念有:
定义1. Deep Web数据源(Deep Web Data Source, WDS)可以描述为一个三元组:WDS=(I, R, D)。其中:
(1)I指Deep Web数据源查询接口,即用户提交查询的入口;(2)R指通过查询接口提交查询请求后Deep Web数据源返回的结果集;(3)D指Deep Web数据源后台数据库。
定义2. Deep Web查询接口(Query Interface,QI)用I表示,可以描述为:I=(I_Name,Attributes,Number),其中:
(1)I_Name指抽取得到的查询接口名称;(2)Attributes定义为一个二元组数据集合,表示查询接口中所有的属性名-值信息,Attributes={a1, a2……an}。其中,ai=(Name, Values),Name为属性名称,Values为属性值域。(3)Number表示查询接口中属性数目,用N表示。
定义3.页面表单(Page Interface,PI)可以描述为一个四元祖:PI=(ID, PI_Name,Attributes,Number),其中:
(1)ID指页面表单的编号,用于惟一标识一个页面内的某表单;(2)PI_Name为表单名称,Attributes、Number与查询接口中的定义相同。从查询接口与页面表单的定义中可以得到,I∈PI。
定义4.查询接口判定(Query Interface Determining, QID),假设页面Page中同时含有表单:PI1、PI2…,则QID定义为按照一定的方法对所有表单进行判定,看是否有表单是查询接口。
1 本体模型构建
由于Deep Web具有信息量大、异构性等特点,使得Deep Web数据源具有明显的领域限定特点,因此,本文引入领域本体模型辅助完成数据源发现工作。
本体是一个知识表示模型,用于定义一个领域内的基本概念、关系和规则,本体模型构建则是在领域专家的协助下明确领域的概念及概念之间的关系,构建领域本体模型。针对Deep Web查询接口判定工作需要,本文给出了一个本体模型。
定义5.本体模型可以描述为一个六元组(C, T, R1, PI, L, R2),其中:
(1)C表示领域内的一个概念划分,每个概念ci都有取值范围,包含若干个具体取值,且 ,其中i≠j;(2)T为概念Ci的取值范围,有若干具体取值决定,Ci=T={t1,t2…}由此可得Ci至少对应有一个取值结果。(3)R1表示T内取值之间的关系,查询接口的语义信息可以由若干个概念表示,概念则对应一个或多个具体取值,具体取值之间的关系影响其在查询接口中的显示。(4)PI指页面Page内的表单,在表示时用经过语义信息提取后的Attributes值表示;(5)L表示领域本体模型的集合,且有L={l1, l2…,lm},每个具体的领域li用概念C具体表示;(6)R2表示PI与L之间的关系,如果PI是一个查询接口,则定有PI属于某个领域li,否则PI≮L。
2 基于语义相似度的查询接口判定
查询接口作为Deep Web数据源的唯一入口,具有非常高的价值,可以通过判定页面表单是否为查询接口来确定站点是否为Deep Web数据源。本文利用网页表单特征抽取获得表单语义化表示,并在本体模型的基础上采用语义相似度计算方法完成查询接口判定工作。
2.1 网页表单特征抽取
常见的网页表单都是用HTML语言描述,通过分析页面HTML代码,可以发现网页表单的主要内容包含在标签内,
经过表单特征分析后,得到表单对应HTML代码和特征集合。在特征抽取完成后,需要根据特征集合信息提取得到表单的语义信息表示,例如从表单的特征集合中可以获得表单语义表示为:PI=(书名, 作者, 出版社)。
2.2 语义相似度计算
经过特征抽取后,表单可以表示为语义信息,如果一个表单是查询接口,则它的语义信息必定与领域本体模型非常相近。因此,在进行查询接口判定时,需要计算表单语义信息与领域本体模型之间的相似度,本文在HowNet[6-7]的基础上给出了语义相似度计算方法。
定义6.表单PI与领域本体模型li的相似度 ,在计算 时,通过计算表单PI所有语义项与本体模型所有概念之间相似度后给出,方法为:
其中vj为表单PI的语义项。
定义7.目标领域本体模型,计算PI与多个领域本体模型的集合L中各元素的之间的相似度,并取其中相似度最大的本体模型作为PI的目标领域本体模型。用公式描述如下:领域本体模型集合中某一元素为目标领域本体模型lt当且仅当t满足 且 其中β为给定阀值。
定义8.表单PI的语义项vj与领域本体模型li中概念ck的相似度 为语义项vj与概念ck对应概念指V的最大相似度:
定义9.语义项vj与概念ck具体概念值vm的相似度 ,语义项和具体概念值都是由词语表示,因此 值与 相同,其中w1表示vj,w2表示vm,公式描述如下:
定义10.义原相似度 ,义原相似度计算时利用义原之间的距离来衡量,两个义原相似度随着距离增大而减少,参照HowNet义原层次树中的距离计算方法Dis,给出 计算公式: 其中 是可调节参数。
参照定义6至定义10的计算公式,若能得到表单PI与领域本体模型集合L中最为匹配度且相似度大于阈值的目标领域本体模型,则定义表单PI为查询接口。否则,PI不是一个查询接口。同时本文为了进一步提高查询接口判定的效率,在实际处理时通过启发式规则辅助完成接口判定,所采用的启发式规则如下:
(1)用n表示页面表单中控件数目,给定一个阀值N,对于 n
基于本体和语义相似度的数据源发现方法,利用了领域背景知识和语义计算方法,以及启发式规则,取得了较好的实验效果,平均准确率达到了86.6%,具有很好的可行性和有效性。
参考文献:
[1]方巍,胡鹏昱,赵朋朋,崔志明.基于语义的Deep Web数据源自动发现技术[J].微电子学与计算机,2007,Vol 24(9):1799-1802.
[作者简介]
卓林(1986-)男,汉,江苏省徐州市人,硕士研究生,从事智能化信息处理工作。