论文部分内容阅读
在当今信息社会里,各行各业需要处理的数据规模越来越大,然而数据分析技术严重缺乏,无法在海量的数据中发现数据之间隐藏的联系,出现了“数据多,知识少”的现象,数据挖掘技术应运而生。数据挖掘是从数据库中抽取隐含的、未知的、具有潜在使用价值信息的过程,其中关联规则挖掘是该领域的一个重要研究课题,它是发现大量数据中的项目集之间的隐含的相关性信息的过程。各种关联规则挖掘算法虽然思想各不相同,但是大致过程都由挖掘频繁项集和发现关联规则两个步骤组成。如何提高挖掘频繁项集算法的效率和发现关联规则结果的准确性是研究关联规则挖掘算法的两个核心问题。 在过去几年,随着关联规则挖掘技术研究的不断深入,频繁模式挖掘技术已经逐渐成熟,形成了很多经典算法。然而随着信息的爆炸式增长,实际应用中的数据往往以数据流的模式存在,数据流的的新特点给传统的数据挖掘技术带来挑战。应用于数据流环境中的频繁项集挖掘算法需要能以增量式的方式获取数据并进行分析以避免重复重建知识库。FP-Stream是一个经典的数据流挖掘算法,实现了多时间粒度存储和高效的动态更新满足用户的兴趣度查询,利用特定数据结构实现了大量数据的快速挖掘和挖掘结果的高效存储。但是该算法对需进入内存进行分析的数据流本身并未进行压缩,如果出现高速事务流,即单位时间内到达的数据量很大,由于内存空间有限,算法无法准确处理。另一方面,该算法引入的倾斜时间框架技术耗费内存巨大。可见FP-Stream算法仍然存在有限内存与高速海量数据之间的矛盾。本文对FP-Stream算法进行改进,将垂直格式Dif-bits压缩算法的思想融入FP-Stream算法,对原始事务流数据进行垂直压缩处理,以减少算法对内存的需求,依靠压缩算法较高的压缩率使改进算法甚至可以处理数据量超出内存限制的情况。同时对倾斜时间框架进行二进制位图和填充变换,进一步节省存储空间,提高空间性能,最大限度的提高算法处理的数据量和处理速度。在关联规则的发现阶段,改善传统的最小支持度.置信度框架,引入提升度、余弦和兴趣度来扩充已有框架,分析关联规则的相关性,以避免传统框架无法充分过滤无用规则的缺点,进一步提高挖掘结果的准确性。总之,通过改善关联规则发现的两个阶段提高算法处理数据的能力和挖掘结果的准确性,进一步扩充算法的应用范围。