同构XML流层次分类方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:xukej
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于XML具有良好的结构性和可扩展性,并且允许用户根据自己的需要定义自己的标记,XML逐渐成为网上数据表示和交换的主要格式。在Internet应用中,存在大量的XML文档,如何有效的利用这类XML数据已经成为Internet领域一个亟待解决的问题。分类足数据挖掘中一个重要的课题,在数据挖掘的发展趋势中发挥着重要的作用。虽然已经出现了大量解决数据流分类的方法,但针对XML流的分类尚处于起步阶段。   针对XML分类,本文主要完成了如下的研究:   首先,在XML SCHEMA相同的情况下,对XML文档流进行形式化表达,提出了针对XML文档流的新的定义。即按照时间顺序,先后到达的XML文档形成了XML文档流,每一篇XML文档对应了XML文档流中的一个元素。   其次,本文提出了一种同构XML文档的层次分类算法,它基于特定的XMLSCHEMA和遵循该SCHMEA的静态XML文档集合,以传统的ID3决策树分类算法为核心,结合层次分类的思想,对静态XML文档进行层次分类。   再次,在静态XML文档层次分类的基础上,本文提出了一种新的同构XML流层次分类算法,它以VFDT算法为核心,利用流中每一篇XML文档解析后得到的样本来动态构建各个层次的分类器,对在线XML文档流进行层次分类。   最后,对以上两种层次分类算法在内存、分类准确率方面进行了对比。实验结果表明,基于VFDT算法的XML文档流层次分类能够达到基于ID3算法的XML文档层次分类的精确度,且两种层次分类算法的分类精确度能够达到静态分类的要求。
其他文献
本文以二维骨组织病理切片显微图像为研究对象,通过对目标图像进行分析与计算,可获得骨组织结构的计量参数,从而进一步得到骨组织形态结构变化状况。  计算机辅助识别切片的具
在电力系统中,许多功能都与时间密切相关,如果时钟不同步,系统时钟就会混乱,很多事情就会变得杂乱无章,严重的则导致整个电网瘫痪,因此电网系统中的时钟同步变得越来越重要,整个系统
安全组播是组播技术的研究热点之一,其核心就是组播密钥管理问题。组播密钥管理主要是为了解决安全组播中两个重要的难点—前向及后向安全,合法的组成员在退出组后不能再接收
如何在海量的XML数据中检索到人们需要的信息是当前学者研究的一个热点问题。结构连接是XML查询的核心操作,在对结构连接算法的改进方面有了大量的研究成果。为提高查询效率,
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别(Named Entity Reeognition, NER)的主要任务是识别出文本中出现的名字实体和有意义的数量短语并加以归
学位
随着无线局域网的快速发展,它自身存在的安全性问题,也慢慢的引起了人们的关注。入侵检测系统作为信息安全的重要组成部分,已经成为当前网络安全领域的研究热点。尽管有线网络的
随着社会的信息化发展,人们可以通过网络获得大量的信息资源和服务,人类进入信息化社会,这使得社会的开发程度进一步加大,与之俱来的是信息安全问题,信息安全已成为人们在信
国际可信计算组织TCG(TrustedComputingGroup)推出了以可信平台模块TPM(TrustedPlatformModule)为核心的可信计算平台规范。TPM是一种具有密码功能、实现可信存储、防篡改的
学位
基于核的学习算法是一种新兴的重要的分类技术,近年来己被广泛研究,并且成功应用于模式识别.图像处理等等相关领域。传统的核方法通常仅使用标准的核函数,如线性核和RBF核,因此
学位
蛋白质的三维结构决定其生物功能,折叠模式是蛋白质空间拓扑的一种分类表达。自然界中的蛋白质结构约十多万种而折叠模式的总数约一千多种。因此,蛋白质折叠模式预测研究具有