基于标记树的XML文档自动分类研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:DINGDING122951
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。
其他文献
企业用ISO14001环境管理体系管理RoHS限制物质,必须改变观念,注重环境因素识别以及法律法规和其他要求的识别,注重环境因素控制和监测。
简述了艺术创造工程学及艺术创造性活动的模式,阐述了艺术的创造思维及其在建筑设计中的作用,提出了艺术创造技法,指出艺术创造工程学的原理和技法应用于建筑设计是可能的 .
为揭示超薄膜的摩擦特性与微观结构的关系,运用分子动力学模拟的方法对其进行研究,采用固液比作为流体膜固化的定量描述,分别讨论温度、分子层数对固液比和摩擦力的影响。仿真结
提出一种基于传统栅格法的变密度三维全六面体网格自动生成算法,建立基于实体局部表面曲率的加密源点信息场的生成技术和基于几何实体局部厚度特征的网格加密技术,并给出自动生
介绍了CFG桩的组成及其作用,从成桩工艺、施工机械等方面,阐述了CFG桩成桩质量的影响因素,提出了应采取的具体防治措施,指出应加强监测及时发现问题,有效控制成桩质量.
本文讨论了对网络信息资源进行评价的必要性和网络信息资源的分类,将网络信息资源评价方法分为定性、定量和综合三类,对每一类中的具体方法及研究现状进行了介绍并给予简要的评