【摘 要】
:
随着时代的进步,信息化成为了发展的主旋律,这其中XML已经成为了WEB数据交换和信息交换的最佳载体。而模式匹配作为模式操作中最重要的环节,正在数据集成、数据仓库、电子商务等
论文部分内容阅读
随着时代的进步,信息化成为了发展的主旋律,这其中XML已经成为了WEB数据交换和信息交换的最佳载体。而模式匹配作为模式操作中最重要的环节,正在数据集成、数据仓库、电子商务等诸多领域中起着重要的作用。本文对国内外关于结构化模式匹配和非结构化模式匹配的研究现状进行了综合分析,主要从模式发现和模式匹配的角度对复杂模式匹配过程进行了研究,并着重研究基于结构化和非结构化数据的模式匹配以及模式发现小枝算法的改进工作。论文主要使用XML作为文档载体,使匹配结果更具有移植性和灵活性,更容易在不同系统之间进行交流。本文主要研究工作如下:1.通过研究数据库模式匹配方法的现状,总结其实现方法、应用范围、应用特点,其中相似度的计算是模式匹配的基础,模式匹配算法的优劣在很大程度上取决于最终相似度计算的情况。本文提出了一种新的CMExt系统,首先从不同数据库中抽象出模式数据,使用kettle做数据清洗,然后把数据读写到内存上,然后改进现有CM系统中相似度估价模块,从而提高了模式匹配的精确度。2.基于XML文档树的特点和上文中基于结构化数据模式的匹配技术成果,分析和比较了基于非结构化数据模式的匹配技术和当前主要模式匹配技术,提出了基于数据名称和数据域的基本相似度匹配和基于模式上下文结构相似度匹配,并对多种相似度做出了整合,从而改进了相似度的准确度,提高了基于非结构化数据模式的模式匹配技术的效率。3.本文分析和比较了现有经典TwigStack算法和一些对其改进的算法,发现这些算法存在的缺陷,并通过对TwigStack算法进行了改进,提出了一种新的TwigStackExt算法,解决了在处理查询中含有父子关系时效率不高和处理查询过程中当分支结点也含父子边时,仍然会产生中间结果的问题。4.针对基于结构化和非结构化数据模式算法做出的改进,以及针对经典TwigStack算法做出的改进算法做了实验测试,验证了本文所提出的算法的有效性。
其他文献
旅游电子商务快速发展使旅游消费者的观念逐渐发生变化,原有的市场营销模式受到巨大影响,网络以其强大的传播能力逐渐成为酒店进行市场营销和宣传推广的重要工具。深圳金茂JW
本研究以阜新海州露天矿排土场复垦区玉米田(K1区)和阜新市太平区下洼子村玉米田(F1区)为研究对象,分析了矿区排土场玉米种植区土壤微生物的多样性。并利用宏基因组测序分析K
甲醇制烯烃是目前非油路线合成烯烃产物最具有前景的技术,其工艺研究的重点在于高选择性、高活性催化剂。SAPO-34催化剂由于具有小孔径、较低的酸性、较强水热稳定性,在催化MTO反应中表现出优良的高转化率和烯烃选择性。本文针对于SAPO-34催化剂催化MTO反应,进行了热力学计算分析、集总动力学模型研究、反应条件考察和催化剂积炭研究,以实现对工艺条件的优化和对产物分布有选择地调节的目标。本文首先对MT
植物转基因技术是指通过一定的方法将从动物、植物或微生物中分离到的目的基因转移到植物的基因组中,使之表达并稳定遗传,从而赋予新性状的技术。目前植物转基因技术主要在以下
【目的】通过分子标记辅助选择培育兼抗褐飞虱和稻瘟病的水稻新恢复系,为杂交水稻抗病虫害育种提供新的种质资源。【方法】利用常规回交育种、分子标记辅助选择和抗病虫鉴定
目的:探讨临床参数对前列腺癌分期的临床意义.方法:通过病理诊断、MRI检查及全身骨扫描对112例经前列腺活检病理证实的前列腺癌进行分期,结合血清前列腺特异抗原(PSA)、穿刺
针对大量拆回智能电表故障诊断、测试合格再利用等相关工作所存在的人工成本过高以及效率低下等问题,文中提出了一种采用先进工业控制技术实现智能电表自动测试的设计方案。
中国经济进入新常态,转变经济增长方式的重点在于深入贯彻创新驱动战略,推进供给侧结构性改革。作为市场经济的重要基础单元,中国企业对外要应对环境不确定性带来的挑战,对内
对中国陆上天然气资源的基本特征作了全面分析 ,其特征主要表现为 :①天然气勘探程度不高 ,资源相对丰富 ,主要集中分布于四个气区 ;②天然气成藏特点明显 ,类型差别较大 ;③
近年来,我国工业处于高速发展的状态,经济得到了快速的增长。但是在发展的同时,我们的环境面临的挑战越来越严峻。对此,国家对工业废水的排放要求越来越严格,排放标准由国家