综合结构分析和内容分析的两种XML文本分类方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:seanswh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,XML正在得到越来越广泛的应用。XML文档作为一种新的数据格式,针对XML文档的数据挖掘研究也成为了研究的热点。由于XML文档具有半结构化的特点,包含内容特征和结构特征。如何将XML文档的内容特征和结构特征结合起来,进行XML文档的分析挖掘,是研究的重点之一。   本文重点研究了两种XML文档分类方法:   1)基于SINM模型的XML文本分类方法;   2)基于频繁子树SLVM模型的XML文本分类方法。   SLVM模型是向量空间模型的一种扩展,基本思想从XML文档中提取结构单元,再从每个结构单元中的提取文本信息;将XML文档中的每个结构单元中的文本信息看作一个一维向量;整个XML文档则被建模为一组向量,用一个矩阵表示;从而达到将XML文档的结构分析与文本内容分析相结合的目的。本文首先研究了以元素、路径作为SLVM模型的结构单元的XML文本分类方法。更进一步,本文尝试从XML数据集中提取闭合频繁子树作为SLVM结构单元,挖掘更复杂的结构信息,提出了基于频繁子树SLVM模型的XML文本分类方法。   同时,本文还研究了XML文档的相似度计算方法;讨论了XML文档结构单元之间的关系矩阵的计算方法;使用支持向量机算法(SVM)对大规模XML文档进行分类。使用上述两种方法,在INEX2007和INEX2008测评的XML文档分类任务上,都取得了较好的成绩。
其他文献
随着互联网技术的高速发展,Web已经成为最重要的新闻媒体之一。通过浏览Web新闻,人们能在短时间内了解来自不同国家和地区近期所发生的各类事件。而在众多新闻当中,那些难以准确
互联网应用的日益普及,企业信息化得到越来越多企业的认同和重视,随着企业级信息系统规模的不断扩大和复杂度日渐升级,如何迅速开发出具有良好扩展性、维护性的企业应用是一个值
机器博弈作为人工智能研究的重要分支,可研究的内容极为广泛,而当前对中国象棋博弈的研究也在不断地发展着。通过对本人硕士期间完成的中国象棋程序“GoldFriend”的数据结构、
毋庸置疑,信息检索技术已经成为人们使用互联网的重要技术,并蕴含着巨大商机。问答系统作为信息检索技术日后发展的方向,也是国内外学者研究的热点。在国外,已经有许多对问答技术
近年来,游戏和动画已成为许多人主要的休闲娱乐方式之一,以至于游戏和动画制作迅速变成一个越来越热的新兴产业。人们对游戏与动画的需求也越来越趋于高质量,能够带来立体视觉效
随着信息数据化的深入发展,数据信息存储需求日益剧增,中小企业首当其冲成为存储需求市场的主力军。然而,遍观整个存储产品市场,还没有一种有效的解决方案能够在性能和价格比上切
随着软件规模的增大、运行环境的开放性和动态性,使得用户需求和系统资源环境的变化也变得异常频繁,导致软件开发变得越来越复杂。传统软件开发方法很少从体系结构层面将软件
隐写(Steganography)技术是信息安全(Information Security)领域中信息隐藏(Information Hiding)方向的一个分支,是关于将信息秘密地嵌入到数字图像等用于传输的媒介之中,使得
科技的发展影响和改变着人们的生活和学习方式。在强劲的技术发展驱动下,教育将从学校走向家庭、社区、乡村,走向任何信息及通信技术能够触及的地方。移动学习(m-learning)将网络
随着网络技术的发展,社交网络平台的功能已逐渐由开始的网络社交转变为社交媒体,具体体现在三个方面:内容上,用户发布的消息内容从个人自身状态的更新逐渐转变为当下的时事新闻;