XML非完全结构查询处理中若干关键技术的研究

来源 :东北大学 | 被引量 : 12次 | 上传用户:sannian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展和异构信息源集成技术以及存储技术的进步,网络中涌现出大量半结构化数据资源。XML由于其所具有的自描述性、灵活的数据结构以及丰富的数据表示能力等特点,逐渐成为数据表示、存储和交换标准之一。近年来,XML非完全结构查询处理技术作为有效管理XML文档的关键技术之一,引起越来越多研究人员的关注。 XML非完全结构查询(Non-fully Structured Query,NFS Query)是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求。NFS查询是近两年出现的XML查询技术,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。在实际中,特别是在Internet和Intranet上,大部分XML文档缺少结构说明或存在异构现象,这使得NFS查询有着广泛的应用前景。本文就XML非完全结构查询处理技术中的有意义的NFS查询结果判断技术和基于内容的查询结果聚类技术进行了深入研究。 有意义的NFS查询结果判断是NFS查询处理中非常重要的一环,现有的判断方法,如XSEarch中的Interconnection Relationship和Timber中MLCA,都是从一个特定的角度来设计判断标准,缺乏一个准确和全面的定义,这使得它们只能适用于特定的XML文档。另外,现有方法无法适应于大规模XML文档,如XSEarch的索引建立时间和Timber的查询时间在大规模XML文档下远远超出用户的容忍程度。 本文提出了一种基于模式和实体概念的有意义的NFS查询结果判断模型一PE模型。PE模型从系统角度出发定义了一种用户普遍接受的判断方法,与具体的等价模式和等价查询项的判断方法无关,具有可扩展性。基于PE判断模型,提出一种具体的基于结构相似性的等价模式判断方法,并给出了一个判断规则。为了提高NFS查询的执行效率,设计了模式索引PE和增强的倒排索引I2P,提出一种高效的NFS查询算法,它们不仅可以支持高效的路径查询和关键字查询,而且可以有效地支持本文提出PE模型,并有效地利用了现有XML数据库系统中的索引资源,适用于大部分XML编码方案。实验表明,本文方法的效率和准确率要远远高于XSEarch和Timber系统,适用于大规模XML文档。 NFS查询为非精确查询,在XML文档规模较大的情况下,NFS查询往往返回大量结果。而以文档为中心的XML文档节点包含了大量的文本信息,为了方便用户快速定位所需信息,通常需要对结果按照内容进行聚类。文档聚类是实现这一目的的有效技术之一。基于概率模型的聚类方法具有高维数据适用性和簇可
其他文献
目的探讨短时受精在多次夫精人工授精失败后行体外受精-胚胎移植中的应用研究。方法对珠海市妇幼保健院生殖中心2014年7月至2015年12月反复人工授精失败后行体外受精-胚胎移
文章从周秦的社会思想出发,介绍了有关周秦社会思想学家的相关社会思想以及其所产生的背景。作者主要从周秦社会管理思想来讨论其对中国现代社会管理的借鉴作用。在这篇文章
关于汉《西岳华山庙碑》“郭香察书”之义,自唐代以来,历来各有说法.今人启功先生曾撰《汉〈华山碑〉之书人》一文,启文一出,这个问题似乎已成定谳.而作者在整理清代笔记、日
随着对外开放的不断加强,多元文化对中国传统文化造成了冲击,个人主义、功利主义、利己主义等对中国青少年的人生观、价值观产生了消极影响。面对此形势,青少年社会主义核心价值
农机与农艺属于两门不同学科领域,在农业上的应用,二者相互适应,紧密结合,促进现代农业机械化发展。
目的 探讨支气管哮喘加强健康教育对患者自我保健能力的影响.方法 本次共选择 100例支气管哮喘患者作研究对象,均为本院 2012年 5月 ~2013年 5月收治,随机分组就常规护理 (对
<正> 心是人体生命活动的主宰,在脏腑中居首要地位,其他脏腑都是在心的统一协调下进行活动的,故有“心为五脏六腑之主”,“心为君主之官”,“心主神主血脉”之说,因此这些功
本文就我国学者对高等教育国际化的基本问题、战略选择、有待深入研究的问题等几个方面的观点加以综述,以便于对此问题进行深入研究。
目的:探讨糖尿病并发脑梗塞患者的临床治疗方法及其疗效。方法:选取我院2013年1月至2014年12月接收的糖尿病并发脑梗塞患者68例,对其均进行降糖、降压、抗凝及护理干预等综合
自救互救是成功救治战伤伤员的关键环节。本文查找了边防部队自救互救训练存在的主要问题,结合部队实际提出了加强自救互救训练的对策及建议。