关联规则挖掘的拓展性研究

来源 :复旦大学 | 被引量 : 10次 | 上传用户:king95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,数据资料的规模急速膨胀。于是,人们希望有新一代的技术和工具能够智能地自动地帮助人们分析已经消耗大量财力与物力所收集与整理的海量数据,以发现有用的知识,达到为决策服务的目的。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘(Data Mining)技术应运而生,并得以蓬勃发展。数据挖掘,指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。作为数据挖掘当前研究的主要模式之一的关联规则则用于确定数据集中不同领域或属性之间的联系,找出可信的、有价值的多个域之间的依赖关系。本文的工作在关联规则挖掘的范畴以内,根据关联规则的生成的二个主要阶段:频繁模式的获取和关联规则的生成进行了深入的拓展性研究。首先讨论的是关联规则生成的问题。通过在统一的概率论的范畴内重新定义兴趣度的概念,使得负项的引入有了理论依据,并通过对负项的进一步限定,提出产生包含负项的关联规则IAR算法,使关联规则包含的语义更加完整,规则本身也更有意义,特别是在有概念层次的情况下。这些工作的结晶就是一个基于关联规则的数据挖掘工具ARMiner。其次,在经历了近10年的发展以后,关联规则挖掘中至关重要的频繁模式获取技术得到了很大的发展。但这些工作都是以项(集)为基本操作对象的,而现实生活中,万物皆有内在的联系,彼此之间构成一张复杂的网。这时再孤立地看待每个事物就显得不太合适了。另一方面,这些内在联系可以用图的形式来表述。同时,随着各种新应用的不断推出,人们将注意力逐步向图中的频繁模式的产生问题转移。论文首先选择唯一标号图作为研究的突破口,先后提出了Matricon和SFP算法。由于唯一标号图能转换为项集的形式,这就能充分利用近10年来的研究成果。唯一不同的地方是在连通性上的进一步考虑。两个算法中,前者基于Apriori思想,后者则充分利用了FP-Growth的特点。Matricon算法中利用关联矩阵形式代表图的方法和SFP算法中利用顶点重叠判连通性的思想在下一步非唯一标号图的分析中也是一个重要工具。在应用方面,由于互联网上的节点可以被唯一标定,唯一标号图分析算法就被成功地用于对Web权威资源的分析工作中。当取消了标号唯一性限定后,论文解决了有序标号树中的模式发现问题。这里,论文先后描述了Chopper和Spanner算法。这些算法不仅在性能上要优复旦大学博士学位论文2一于同类算法,更重要的是它提出了树的序列化表示和先同分后异构的思想。这两个思想可以有效地提高算法的效率,将树的分析工作中所遇到的瓶颈——同构问题的求解延后,并最大可能地缩小了同构判定的搜索空间范围。这里的各个算法还被用在了对以XML文档为代表的半结构化文档和Web日志的分析工作中,并取得了一些很有意思的结论。 最后,论文解决了以图同构为核心的频繁子图抽取问题。通过充分惜鉴己有的较成功的ACGM和FSG算法,经过综合分析比较,描述了TOpology算法。这是一个以Apriori思想为主体,以先同分后异构为框架,以图的序列化及矩阵表示和标号连通判定等技术为手段的一个综合算法。Topology算法可以真正面对现实世界中各事物之间的内在联系分析问题,使得频繁模式的获取实现了从项到图的拓展。 论文的最后部分对全部工作进行了总结,并结合当前研究的最新进展提出了在图中考虑生成包含“负项”的关联规则,对图本身的拓展和新领域中的关联规则挖掘技术三个方向,为未来的工作提供了一个参照。
其他文献
湘鄂川黔革命根据地纪念馆位于湖南省张家界市区中心,于1991年夏在湘鄂川黔省革命委员会旧址修复新建,1993年12月26B落成开馆。 Hunan, Hubei, Sichuan and Guizhou Revolut
本文以医学科学为基础,分析了艾滋病患者的传染性,论证了艾滋病患者的隐私权与公众的生命健康权之间的法益博弈,对是否应当公开艾滋病患者的患病情况进行了深入解读.
目前我国的审判委员会议案机制存在审判分离、缺乏有效质证、违背控辨平等原则等问题。通过在审判委员会议案机制中适用证据规则,可以对审判委员会的证据审查、质证、判断和采
本文介绍了“驰名商标”概念和药品驰名商标保护的法律体系,对药品驰名商标的认定现状进行了剖析,认为目前在认定中存在着通过刻意制造法律纠纷获取驰名商标、确认驰名商标的
随着经济全球化的到来和Internet的广泛使用,Web(World Wide Web)逐渐成为全球企业合作的平台。研究基于Web的协同产品开发技术,对于企业适应环境、加强合作,从而赢得市场竞争具
随着Internet技术的发展,Web上各种在线信息源不断涌现,这些信息源种类繁多,结构各异。在互联网这样一个动态的环境中,各信息源不断地发生着变化,在这样一个动态、异构、开放的环
在社会福利的管理工作中,档案管理工作是其基础也是重要环节。收集工作是社会福利档案管理的起始环节,与其他各个环节的工作相比,它处于一种特殊地位。特别是在简化档案整理工作
随着计算机技术日新月异的飞速发展,在产品生产领域为了适应快速多变的市场需求,计算机辅助设计与制造、计算机集成制造、异地无纸设计、并行工程等新技术、新思想、新模式、新
随着汽车技术不断的革新与进步,人们对汽车的安全性、环保性提出了更高、更严的要求,同时汽车设计要符合人机工程学的要求,满足人性化的需求。因此,在汽车设计中必须全面考虑
我国是世界上养鹅大国,鹅地方品种资源十分丰富,由于对鹅的选择和利用目的的不同,逐步形成了丰富的各具特征的家鹅品种资源。自上世纪80年代开始,我国相继从国外引进产肉性能