论文部分内容阅读
当前,应用于股票交易、电子邮件监测、网络信息订阅与发布等领域的以流形式存在的XML数据越来越多,对其进行关键字查询是XML数据查询的一个研究热点。XML数据流上的关键字查询不同于XPath&XQuery等结构语言查询,用户不需掌握复杂的结构化查询语言和XML的结构信息,只需提交查询的关键字即可获得感兴趣的信息。但XML数据流的大容量、到达无序且不受控制、仅被访问一次,这些特性给关键字查询带来了新的挑战。基于此,本文对XML数据流上的关键字查询做了细致的研究。本文在综述和分析现有XML数据流上的关键字查询相关技术的基础上,着重分析了XML数据流上的关键字查询技术。首先针对现有算法的优缺点,给出了完备性结果集——全部最小最近公共祖先ASLCA(A11Smallest Lowest Common Ancestor)和最大包含序列MCS(Max Contain Sequence)的定义,并提出和实现了XML数据流上的关键字查询算法—XAMM算法(XML All-slca Max-contain-sequence Minus),该算法解决了Dewey编码浪费内存空间,克服了XPath&XQuery等结构化查询操作不友好的缺陷。接着设计了XML数据流上关键字查询原型系统,该系统在综合考虑用户的查询意图和查询数据集的精确性的基础上,从用户操作、关键字分类、关键字语义扩展、数据集粗糙过滤和查询执行五个模块对该系统进行设计。在查询执行前,为准确捕获用户的查询意图,对用户提交的关键字表达式进行语法规定,根据关键字在查询中充当的角色,将关键字分为用于查询的条件关键字和用于显示结果的结果关键字,并利用WordNet语义词典对关键字语义进行扩展;同时对XML文档数据集利用布隆过滤器进行数字签名,匹配关键字语义扩展结果,以此将无关的文档集过滤掉,通过对数据集的粗糙过滤,可在查询前精简数据集,为精确化查询作准备。在执行查询时,执行XAMM算法,同时为将满足用户意图的查询结果返回给用户,在分析现有基于WordNet的经典语义相似度计算方法均忽略概念间层次关系的基础上,提出了概念非对称性语义相似度计算方法——NASSC方法(based on Notion Asymmetric Semantic Similarity Calculation)。用NASSC方法计算候选查询结果和关键字同义词词集的语义相似度,将相似度高的结果返回给用户,完成查询。最后通过对比实验,证明了XAMM算法优于现有的算法,XAMM算法的结果集比SRCT和SLCA结果集更完备,并具有较好的查询性能。并通过将NASSC方法与经典的语义相似度计算方法进行对比实验,证明了NASSC方法计算的相似度有较高的准确率。同时实现了XML数据流上的关键字查询原型系统,通过系统演示证明该系统对用户是操作友好的。