桥规则的挖掘与评估

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:luckybaisy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的飞速发展,人们产生和搜集数据的能力也不断提高。然而,与此相对应的是,处理数据的能力并没有相应的改善。面对越来越多的数据,人们显得无所适从,造成了“海量的数据和贫乏的知识”并存这样一种尴尬的局面。为了从数据中提取有用的知识,从庞杂的数据中分析和发现有价值的信息,数据挖掘技术就应运而生了。数据挖掘(Data Mining,又译作数据采掘)[1]:是一个从大型数据库中提取人们感兴趣的知识的过程。这些感兴趣的知识是潜在的、事先不被人们所认知的、隐含的、有用的信息。所提取出的知识用概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式表示。数据挖掘和其他很多学科,诸如人工智能、模式识别、机器学习等,都有着密切的联系。目前,数据挖掘有几个重要的研究分支,包括关联规则分析、分类、聚类、时间序列分析和桥点(例外模式)分析等。一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的模型的数据对象被称为桥点或例外。一般数据挖掘算法在正式进行数据挖掘前都把例外当作噪声处理。但从另一个角度来看,在检验电子商务欺诈,银行信用卡诈骗事件中,很少发生的事情往往更有趣,更有研究价值。所以,例外模式挖掘是一项重要而有意义的工作。当前的孤立点挖掘算法主要包括基于统计的方法,基于距离的方法,基于偏差的方法,基于深度和基于密度的方法。它们都从不同的角度对桥点进行定义和挖掘,并都取得了重大的成就。本文首先介绍了现有的数据挖掘技术和目前流行的桥点挖掘算法的优势与不足。然后,提出了一种新的孤立点模式:桥规则。它是指这样一种规则:它的前件和后件分别属于不同的类,它代表的是类之间的某种联系。比如,使数据挖掘引起业界广泛关注的的著名关联规则“啤酒→尿不湿”就是一条桥规则,它的前件属于酒类而后件属于婴儿用品类。挖掘这样的桥点是很有意义的,它在化学分析﹑交叉销售﹑生物嫁接等方面都有广泛的应用。综上所述,本文的主要工作就是对桥规则的研究。为了尽可能全面的对这一问题进行讨论,本文从不同的角度研究这一问题,并从理论和实验两方面对所设计的算法进行了一定的分析。具体来讲,本文把桥规则的挖掘看成是桥集合的产生和桥规则的形成两部分。在桥集合的产生中,我们采用了三种方法来产生桥集合。分别是:
其他文献
近年来,水平井已逐渐成为世界范围内油气藏增产的重要手段,这使得深入研究水平井的油藏工程理论,准确把握其生产动态成为必要。在水平井生产时,实际有效的产油长度并不是整个水平
生活在一个信息技术日新月异,网络技术推陈出新的时代,生活中,人们对获取数据的方式也不断发生变革。特别是近年来移动互联网技术的兴起,通过移动终端就能方便的获知用户方方面面
本项目为厦门大学计算机系与清华大学智能技术与系统国家重点实验室合作的国家军工863项目飞控计算机通讯卡子课题的进一步引伸。SCI协议是一种可支持高性能多处理器,一致性
学位
本文讨论了处理具优势对称部分的非对称非线性问题的不精确Newton方法。利用矩阵分裂技术,建立了求解此类问题的一类不精确Newton分裂极小参量法、不精确Newton分裂对称LQ法(简
在Web数据挖掘研究领域中,Web日志挖掘是最重要的应用研究方向之一。Web日志挖掘的目的是找出网站用户的访问模式,其过程主要包含三个步骤:数据预处理、模式识别和模式分析。在
本文提出了基于大规模双语平行语料库的双语语义词典的构建思想,在大规模英汉双语平行语料库词对齐以及双语词频统计的基础上,利用语义资源《知网》和WordNet,以及基于《知
针对当前对Agent安全的研究现状及其面临的困难,本文利用动态模糊逻辑作为形式化的描述工具,引入生物免疫系统的相关免疫机制,构造了一种新的Agent类型-免疫Agent,并在此基础
本文以编织物常见的几种疵点类型为研究对象,众所周知,编织物一般都是有规律的图像,而编织物中的疵点相对于编织物来说那就是异点即不符合编织物一般规律的图案。相角变换算法能
本文介绍了一种可应用于富文本的分类方法。分类目标文本是符合OpenDocument规范的OpenOffice.org文档。本文通过分析常用的平文本分类方法在直接应用到富文本文档时表现较差
本文主要研究利用双网格迭代方法求解离散的不适定问题Tikhonov正则化后的对称正定线性方程组。论文首先研究了求解对称正定线性方程组的双网格迭代方法,其中主要介绍了两种预