基于ILP的多关系分类算法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:tom0101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多关系数据挖掘是近年来快速发展起来的重要的数据挖掘领域之一。多关系分类作为一种重要的数据挖掘技术得到了快速发展,并且被广泛的应用到许多方面,如财务决策、医学研究等。到目前为止,已经出现了很多分类算法,包括决策树分类、规则分类等。归纳逻辑程序设计是关系学习的核心方法,也得到了广泛的研究与应用。其中基于归纳逻辑程序设计的分类算法有FOIL、TILDE、CrossMine等,虽然这些算法可以用来处理多关系数据,但是随着数据量的增大和数据模式的复杂,尤其在训练集类分布不平衡的情况下,这些分类算法的分类精度和运行效率以及算法的可扩展性都将存在一定的局限性。本文的研究目标是如何在归纳逻辑程序设计的基础上,构造一个可以有效处理现实生活中复杂模式的多关系数据分类算法(分类器)。使新的分类器拥有更好的分类精度,更高的运行效率以及对于关系的数量拥有更好的可扩展性。首先,对归纳逻辑程序设计以及经典的ILP分类算法FOIL进行研究,针对该分类法在处理现实生活中的大型复杂数据库时所存在的问题,将交叉挖掘中的元组ID传播思想应用于多关系分类中,以很大程度上降低算法的空间复杂度和时间复杂度。然后,对于训练样本集在算法执行过程中的动态分布进行针对性处理,采用混合采样技术处理不平衡的样本类分布,以达到对训练集的精确分类,从而提高算法的整体分类精度和对稀有类的精确分类。最后,对得到的分类规则依据一定的标准进行规则剪枝,使最终得到的分类规则简洁高效。为了将改进后的ILP多关系分类算法与其它算法进行比较分析,分别使用一个综合数据库和一个广泛应用于数据挖掘领域的金融数据库作为实验数据。实验结果表明,改进后的ILP多关系分类算法—基于混合采样的多关系分类算法拥有更好的分类精度和运行效率,并且能够精确地处理多关系数据库中的不平衡数据集。本课题属于多关系数据挖掘领域理论基础研究的前沿课题,具有重要的理论意义和实用价值。
其他文献
迁移工作流是近年来工作流技术发展的一个新方向。迁移工作流引擎、迁移实例和工作位置是构成迁移工作流管理系统的三要素。迁移工作流引擎完成工作流过程定义、迁移实例生成
随着云计算技术的日益发展,越来越多的个人与企业开始使用廉价、便捷的云存储服务以转移运算与存储,该模式下,产生了大量的冗余数据。为了节省用户的上传带宽和云服务提供商
随着网络技术的迅猛发展,网络产生的数据量增速惊人,数据结构的复杂程度也越来越加剧,那么如何从海量复杂数据中挖掘出有用信息成为目前众多学者研究的热点问题。支持向量机(
随着计算机网络的发展,电子文章逐渐繁荣。电子文章版权保护近年来也越来越受关注。电子文章版权保护的一个解决方案是,首先提取一个作者的写作特征,通过写作特征的比较来判
数字显微镜是现代虚拟仪器技术发展的一个体现,是现代虚拟仪器技术与传统光学显微镜的有机结合。随着计算技术与网络技术的发展,数字显微镜系统的开发,将会在以光学显微镜为基本手段的解剖学、组织学、病理学、法医学乃至临床诊断等相关学科领域率先得到应用。数字显微镜除在整合资源、节省资金等方面带来效益外,其最主要的优势体现在促进远程信息交流。数字显微镜技术,将解决现有远程病理诊断系统的弊端,促进远程医疗的发展。
数字信号处理器DSP(Digital Signal Processor)具有强大的数据处理能力和丰富的片内资源,在航空、军事、通信等多个领域得到广泛的应用。然而在恶劣的环境下DSP芯片会出现不
运动目标检测与分割技术是计算机视觉领域的研究热点,也是智能视频监控系统的重要组成部分,其目标提取结果直接关系到后续目标分类、跟踪识别和行为分析等高级视频处理的效果
虚拟植物器官建模是虚拟植物建模的一个重要的研究方向。植物叶片由于其表面纹理的不规则性及高度复杂性,成为了这一领域的研究难点。本课题是以分形理论为基础,结合叶脉的形态
XML(Extensible Markup Language),即可扩展的标记语言,是一套定义语义标记的规范,其目标是能够定义计算机和人都能方便识别的数据类型。随着网络应用的快速发展,尤其是电子
数据流具有数据密集,时效性高的特点,它广泛的应用于卫星定位导航、视频监控、金融业等领域。在数据流的模型中,数据像水管中的流动的水一样,在数据接收端会不停地收到新数据