【摘 要】
:
在近些年,树挖掘和模式分类已经成为数据挖掘经中相当活跃的研究领域。同时,由于数据多以连续流形式出现,需要考虑数据分布随时间而改变,例如感知器网络、web日志、生物学中
论文部分内容阅读
在近些年,树挖掘和模式分类已经成为数据挖掘经中相当活跃的研究领域。同时,由于数据多以连续流形式出现,需要考虑数据分布随时间而改变,例如感知器网络、web日志、生物学中的各种酶分子结构等。发现有识别能力的模式是树挖掘中一个重要的环节。同时,设计实时快速的分类算法是非常有必要的,分类模型要适应数据分布的动态变化。目前对结构化数据的分类方法大多是基于频繁子结构挖掘,然后通过排序剪枝等处理将频繁子结构与类关联得到结构规则进而分类。现在成熟的树流分类算法主要有:使用代价敏感分类模型的分类算法Xrules,它发现大量满足用户最小支持度和置信度阈值的规则,然后从中选取高质量的规则;以及先挖掘频繁闭树,随后采用boosting分类方法的AdaTreeMiner算法等。
本文首先阐述了树挖掘理论的相关知识,分析了闭和最大频繁树模式挖掘的优点,详细介绍了类相关模式挖掘中的思想和原理。与Xrules相比,AdaTreeMiner算法提高分类的算法时间,并考虑到概念漂移,但是其分类正确率相对较低。本文提出的树流分类算法TSC,基于类相关模式,将SP-tree数据结构引入到树模式的发现过程中。在该过程中,使用分支界限法提高搜索效率,无需挖掘完全模式,另一方面对参考度不断更新从而避免后剪枝操作,得到的树模式可直接用于分类。其次,对统计中的卡方度量进行优化,提高发现k-best树模式的时间和空间效率;将得到的k-best树模式用于树流分类,方法简单高效。此外,将一对多分类思想运用到树流分类上,解决多类分类问题中的效率问题。
在合成数据集和真实数据集上的实验表明,本文提出的基于k-best树模式的树流分类算法在分类正确率和运行效率方面较已往的算法具有一定的优势。
其他文献
随着互联网技术在21世纪的迅速普及和发展,互联网对于社会经济的发展产生了深远的意义,人们的生活越来越离不开互联网。近年来,电子商务的出现,通过网络进行的电子商务交易行为更
自然场景的时变过程模拟一直都是计算机图形学领域的重点内容之一,而建筑物场景的时变效应模拟则是其中一个重要的组成部分。建筑物场景时变效应模拟技术涉及计算机图形学、虚
现实世界中众多的复杂系统都可以抽象的表示为复杂网络,而社区结构是复杂网络最显著的结构特征。从某种程度而言,整个网络的功能往往取决于社区间的相互作用。通过跟踪社区结构
随着计算机的普及和计算机网络技术的不断发展,单个计算机或局域网内部之间的资源共享已经难以满足现代信息通信需求。同时,计算机应用的领域不断扩张,迫切的需要一种能够在
笔段网格汉字字形形式化描述方法用预先定义好长度、方向的直线段——笔段作为描述字形的基元,来统一描述一切可能汉字字形骨架异同;描述的字形有效基元量少,字形比对计算效率高
贝叶斯网络是继模糊逻辑、可信度方法和神经网络等方法之后提出的不确定知识表示模型,是研究不确定性问题的重要方法之一。目前,贝叶斯网络参数学习采用的方法主要是精确计算和
随着计算机软硬件技术和语音识别技术的发展,基于语音识别技术的计算机辅助发音训练系统(CAPT系统)在教育领域的应用越来越广泛,而如何为用户的口语发音提供准确有效的反馈是当
真实感自然场景模拟技术一直以来都是计算机图形学领域的热点研究问题,而真实感雪场景模拟技术则是其中一个重要的组成部分。雪场景模拟技术的研究不仅在计算机图形学和虚拟现
Skyline查询常用在数据挖掘和决策支持系统中,用于数据的多条件优化。但早期有关skyline查询的研究仅限于确定数据集,不确定数据流上skyline计算问题刚刚起步。而且,不同用户所
无线Ad Hoc网络是一种开放的、无中心、自组织、多跳的网络,可以随时随地快速构建起来。Ad Hoc网络最初用于军事研究领域,由于其组网灵活、快捷,越来越多的研究人员重视其在商业