论文部分内容阅读
随着Web数据的日益增长,当前Internet信息供求存在两个突出问题:1)用户能够访问的信息过于庞大而个体信息需求相对有限,怎样从浩如烟海的信息中快速找到用户感兴趣的内容。2)如何使得用户具有对信息变化的合理的跟踪能力。为此,系统至少需要具备两种能力。一种是给定一个信息单元,系统能够通过分析知道哪些用户对其中的信息感兴趣,然后将这些信息以合适的粒度和形式发送给相应的用户。另一种是系统能够在合理的时间间隔内完成相关信息的刷新,通过分析知道哪些用户对其中的变化感兴趣,并最终将这些变化发送给相关的用户。这两种能力本质上都是要建立一种从信息或者信息的变化到用户意向的关联机制,称为信息触发机制。信息触发机制分为静态触发和动态触发两种形式,本文重点研究基于XML的动态信息触发机制。 首先,本文以变化检测和意向匹配为核心技术,提出了基于XML的动态信息触发机制的系统框架,目的在于能够每天监控Internet范围内大规模的XML文档的获取,并同时支持大规模的用户意向,使得系统能够根据用户的需求对获得的XML文档进行过滤,并将其中的内容以合适的粒度和途径发给相关的用户。 在系统框架设计的基础上,论文重点研究XML文档的变化检测技术和XML文档的意向匹配技术。 对于前者,针对已有算法大多依赖非常耗时的结点签名,并且算法过程复杂的问题,本文提出了一种文档变化检测的处理方法,该方法利用文档固有信息建立特征参照体系,通过特征路径相关的一系列概念的引入,将传统标号树匹配问题转化为无重复路径的标号树匹配问题,有效地解决了路径等价类比较的问题,简化了XML文档的比较。 在特征路径相关概念的基础上,本文提出了适合无序模式文档比较的KF-Diff算法。在算法复杂度上从先前的多项式时间提高到O(nlogn),其中n为文档结点数。该算法能够检测所有的移动操作,使得匹配环节的效率得到提高,同时提高了过滤能力并能得到高质量的解。该算法的问题是只能适合中小规模的应用。 为适应大规模应用的需要,本文提出了直接利用特征路径进行文档比较的KF-Diff+算法,同时适于有序和无序两种模式,在时间复杂度上从先前的O(nlogn)提高到O(n),更加适合Internet规模的应用。 在特征路径相关的计算中,本文引入面向半结构数据的Key约束思想,并且针对先前判定算法过于复杂的问题,提出了基于多实例结点集合的Key约束的概念以及相关的处理方法,在一定程度上简化了计算。在此基础上,本文阐述了Key约束相关的路径相容性判定问题,给出了相应的推导规则以及判定算法,同时阐述了Key约束相关的满足与隐含问题,给出了相关的推导规则、判定算法以及相应的算法分析。 对于后者,针对先前研究存在的问题,本文首先提出了抽象文档模式空间的概念,从模式空间有限超集的层次上将有模式定义文档和无模式定义文档的处理统一起来。在此基础上,本文提出了两级意向关联模型(模式级意向关联和文档级意向关联)。不仅有效地压缩了候选意向的规模,而且提高了计算过程的共享和重用。在意向关联模型的基国防科学技术大学研究生院学位论文础上,本文提出了增量式的意向匹配算法,能够充分地利用先前的计算过程来实现意向匹配状态的连续推演,从而实现状态级计算共享。 另外,由于在意向匹配过程中涉及大量索引问题,为此针对先前研究在处理基于相对路径的意向表示上存在的问题,本文提出了一种基于相容关系的索引模式,利用系统抽象数据拓扑结构进行相对路径到绝对路径的转换,通过基于相容关系的数字方式编码,能够快速确定对应结点的依赖关系,同时提出了新的路径转换算法,将时间复杂度由过去的平方时间变为线性。 论文所描述的内容己经在原型系统XFDS中得到部分实现,实验证明系统在大规模意向的情况下能够达到较高的文档处理能力,尤其在文档变化率相对较低的情况下,效果更为显著。这对于以变化为中心的工nternet规模XML应用具有重要意义。