论文部分内容阅读
随着Internet的普及,出现了很多基于Web的可检索的在线数据库,其中隐藏了大量的信息,我们称之为“深网(DeepWeb)”。这些可检索在线数据库的出现给数据集成领域带来了许多新的问题,而模式匹配是数据集成过程中的一个关键操作。对隐藏的海量数据的集成首先要对各在线数据库源查询界面使用的模式完成匹配。本文对国内外关于模式匹配的研究现状进行了综合分析,从一个全新的角度对大规模在线数据库查询界面进行匹配的模式匹配方法进行了研究。
首先,介绍了多源模式匹配方法和一般模式匹配方法的异同点,深入分析了现有的两种多源模式匹配方法,指出了两种方法各自的优点和存在的不足。
其次,在两种方法的基础上,提出了一种基于素数的多源模式匹配方法。将素数理论引入到模式匹配过程中,将属性间单纯的字符匹配转换成数学运算,提高了匹配效率,并保留了现有多源模式匹配方法的优点。该方法弥补了当前研究中无法完成复杂匹配的同时保留模式模型的不足,方便了后续元查询系统的设计。
再次,分别提出了属性素数化算法、组属性挖掘算法、同义词发现算法和匹配选择算法,同时提出了基于素数的多源模式匹配方法的具体实现算法,并给出了相应的算法分析。
最后,在四个领域200多个实际在线数据库源上进行了实验,分析了实验结果,证明了算法的正确性。