论文部分内容阅读
整个Web的规模和资源正在不断扩大、深化,其中Web数据库资源难以通过传统搜索引擎索引到,所以被称之为“DeepWeb”,其蕴含的信息量更大、质量更高、结构化程度更高、主题更专一。因此,对DeepWeb资源进行大规模的信息集成具有重要的现实意义。 DeepWeb查询接口是获取Web数据库信息的重要途径,同时DeepWeb查询接口模式匹配问题贯穿于DeepWeb查询处理过程的始终。因此,本文对同一领域的DeepWeb查询接口模式匹配进行了深入研究,主要研究成果如下: ①本文抓住某特定领域属性在各个数据源中的共现模式,即具有组关系的属性通常会一起出现,以及具有匹配关系的属性几乎不会一起出现的特点,从整体着眼,同时匹配所有模式。相比于模式的两两匹配,这种整体性的匹配方法可以挖掘出隐藏较深的匹配知识; ②针对已有的相关性度量未能准确地反映属性之间相关性强度的问题,为提高模式匹配的准确性和完整性,本文改进了组关系度量和匹配关系度量; ③考虑到匹配得分阈值因依赖于领域而较难确定的特点,为保证算法的灵活性,算法取消了该阈值的设置。 ④最后,采用一种贪心策略从找到的所有候选的复杂匹配集中,识别出具有更高匹配得分和更丰富语义的匹配关系,从而找到特定领域真正的多分支复杂匹配集。实验表明,利用本文的模式匹配算法发现的特定领域的多分支复杂匹配具有更高的准确率和召回率。 当Web数据库中的数据经查询处理后,以HTML页面的形式展现时,数据库相关模式结构信息完全丢失,而且目前的查询结果仅供人工浏览。为了使获得的数据具有更高的使用价值,这些数据必须是机器可理解和可处理的。DeepWeb语义标注作为DeepWeb数据集成中查询处理模块的一个重要分支,其主要工作是对从DeepWeb查询结果页面中抽取的数据添加相应的语义信息,使得计算机能够理解并处理这些数据,进而方便数据集成系统中后续模块的执行。因此,本文对DeepWeb查询结果的语义标注做了深入研究,主要研究成果如下: ①通过分析Web数据库查询接口页面和查询结果页面数据的特征,归纳总结出一些启发式信息,即考虑一些领域知识和特定领域中某些属性在位置上的邻接关系,从而提出了基于启发式信息的语义标注方法; ②逐条地将这些启发式信息对待标注的数据进行分析,从而找出每个待标注数据单元的语义词汇,并生成XML格式的标注文件。最后,将本文的方法对多个领域的DeepWeb数据进行语义标注实验,实验结果表明,本文提出的标注方法对于DeepWeb查询结果数据具有较好的标注效果。