XML数据流上关键字查询的研究与实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:coni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,应用于股票交易、电子邮件监测、网络信息订阅与发布等领域的以流形式存在的XML数据越来越多,对其进行关键字查询是XML数据查询的一个研究热点。XML数据流上的关键字查询不同于XPath&XQuery等结构语言查询,用户不需掌握复杂的结构化查询语言和XML的结构信息,只需提交查询的关键字即可获得感兴趣的信息。但XML数据流的大容量、到达无序且不受控制、仅被访问一次,这些特性给关键字查询带来了新的挑战。基于此,本文对XML数据流上的关键字查询做了细致的研究。本文在综述和分析现有XML数据流上的关键字查询相关技术的基础上,着重分析了XML数据流上的关键字查询技术。首先针对现有算法的优缺点,给出了完备性结果集——全部最小最近公共祖先ASLCA(A11Smallest Lowest Common Ancestor)和最大包含序列MCS(Max Contain Sequence)的定义,并提出和实现了XML数据流上的关键字查询算法—XAMM算法(XML All-slca Max-contain-sequence Minus),该算法解决了Dewey编码浪费内存空间,克服了XPath&XQuery等结构化查询操作不友好的缺陷。接着设计了XML数据流上关键字查询原型系统,该系统在综合考虑用户的查询意图和查询数据集的精确性的基础上,从用户操作、关键字分类、关键字语义扩展、数据集粗糙过滤和查询执行五个模块对该系统进行设计。在查询执行前,为准确捕获用户的查询意图,对用户提交的关键字表达式进行语法规定,根据关键字在查询中充当的角色,将关键字分为用于查询的条件关键字和用于显示结果的结果关键字,并利用WordNet语义词典对关键字语义进行扩展;同时对XML文档数据集利用布隆过滤器进行数字签名,匹配关键字语义扩展结果,以此将无关的文档集过滤掉,通过对数据集的粗糙过滤,可在查询前精简数据集,为精确化查询作准备。在执行查询时,执行XAMM算法,同时为将满足用户意图的查询结果返回给用户,在分析现有基于WordNet的经典语义相似度计算方法均忽略概念间层次关系的基础上,提出了概念非对称性语义相似度计算方法——NASSC方法(based on Notion Asymmetric Semantic Similarity Calculation)。用NASSC方法计算候选查询结果和关键字同义词词集的语义相似度,将相似度高的结果返回给用户,完成查询。最后通过对比实验,证明了XAMM算法优于现有的算法,XAMM算法的结果集比SRCT和SLCA结果集更完备,并具有较好的查询性能。并通过将NASSC方法与经典的语义相似度计算方法进行对比实验,证明了NASSC方法计算的相似度有较高的准确率。同时实现了XML数据流上的关键字查询原型系统,通过系统演示证明该系统对用户是操作友好的。
其他文献
近年来,非均衡数据的分类问题引起了众多研究学者的关注和讨论。在地质勘探领域,岩石数据呈现非均衡特征的情况也多有发生,加上复杂储层存在勘探难度大等问题,传统的计算机辅
随着遥感信息技术的快速发展,对地观测产品种类日益繁多,遥感影像空间与时间分辨率等大幅提升。如何从海量的遥感数据产品中提取有用信息是近年来遥感地学研究中的热点问题,其中水体信息的提取可以广泛地用于农业生产、水资源保护与监测、防灾减灾等应用中。然而,当前水体信息提取难以达到大规模的应用水平,主要问题在于遥感数据存在着数据量大、种类复杂等特点,对于海量数据的处理需要消耗大量的计算资源与时间。同时由于遥感
语音分离是指从带有噪声的混合语音信号中提取出需要的目标语音信号,应用于鲁棒性语音识别、助听器设计和移动语音通信等领域。当前的语音分离技术在真实场景中的语音分离性
电机的优化设计技术是电气工程领域中一个长盛不衰的研究热点。所谓电机优化设计,是指在满足国家标准、用户要求以及特定约束的条件下,使电机效率、体积、功率、重量等设计性能指标达到最优,它可以被描述为一个有约束、多目标、多变量、多峰值的复杂非线性规划问题。因此,找到一种具有良好的全局优化能力和收敛性的电机优化算法成为一个具有重要实际意义的课题。本文将在多目标蚁群算法研究的基础上,将多目标蚁群算法应用于三相
近年来,随着移动无线网络的迅速普及、各种移动终端的层出不穷,移动无线网络呈现一种飞速发展的趋势。同时,P2P技术在传统有线网络中也得到广泛应用,例如分布式计算、文件共
RFID是一种利用射频通信实现的非接触式自动识别和获取数据的技术。复杂事件处理技术将数据看作不同类型的事件,通过分析事件间的关系,将简单事件复合成具有更高级语义的复杂
射频识别技术是一种通过射频信号自动识别目标对象并获取相关数据的识别技术。由于RFID系统与传统的识别技术相比具有许多优点,使得RFID系统的应用领域非常广泛。然而RFID系统
移动Ad hoc网络(MANET,Mobile Ad hoc networks)是一种新型移动多跳无线网络,具有自动建网灵活,无需基站设施等优点,因此被广泛应用。但MANET也具有明显缺点:如节点资源有限
计算机网络的应用已渗透到社会各个层面,给社会带来了巨大的便利。但互联网是一个开放系统,其多变性、异质性及动态性的等特点使得互联网存在着诸多安全隐患。基于web的应用系
伴随移动互联网、IP多媒体子系统等业务的蓬勃发展,以及大量的视频业务和数据IP化业务的不断涌现,基于SDH/MSTP(Synchronous Digital Hierarchy,同步数字体系/Multi-Service Tra