数据流环境中关联规则挖掘技术的研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:haoge2919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息社会里,各行各业需要处理的数据规模越来越大,然而数据分析技术严重缺乏,无法在海量的数据中发现数据之间隐藏的联系,出现了“数据多,知识少”的现象,数据挖掘技术应运而生。数据挖掘是从数据库中抽取隐含的、未知的、具有潜在使用价值信息的过程,其中关联规则挖掘是该领域的一个重要研究课题,它是发现大量数据中的项目集之间的隐含的相关性信息的过程。各种关联规则挖掘算法虽然思想各不相同,但是大致过程都由挖掘频繁项集和发现关联规则两个步骤组成。如何提高挖掘频繁项集算法的效率和发现关联规则结果的准确性是研究关联规则挖掘算法的两个核心问题。  在过去几年,随着关联规则挖掘技术研究的不断深入,频繁模式挖掘技术已经逐渐成熟,形成了很多经典算法。然而随着信息的爆炸式增长,实际应用中的数据往往以数据流的模式存在,数据流的的新特点给传统的数据挖掘技术带来挑战。应用于数据流环境中的频繁项集挖掘算法需要能以增量式的方式获取数据并进行分析以避免重复重建知识库。FP-Stream是一个经典的数据流挖掘算法,实现了多时间粒度存储和高效的动态更新满足用户的兴趣度查询,利用特定数据结构实现了大量数据的快速挖掘和挖掘结果的高效存储。但是该算法对需进入内存进行分析的数据流本身并未进行压缩,如果出现高速事务流,即单位时间内到达的数据量很大,由于内存空间有限,算法无法准确处理。另一方面,该算法引入的倾斜时间框架技术耗费内存巨大。可见FP-Stream算法仍然存在有限内存与高速海量数据之间的矛盾。本文对FP-Stream算法进行改进,将垂直格式Dif-bits压缩算法的思想融入FP-Stream算法,对原始事务流数据进行垂直压缩处理,以减少算法对内存的需求,依靠压缩算法较高的压缩率使改进算法甚至可以处理数据量超出内存限制的情况。同时对倾斜时间框架进行二进制位图和填充变换,进一步节省存储空间,提高空间性能,最大限度的提高算法处理的数据量和处理速度。在关联规则的发现阶段,改善传统的最小支持度.置信度框架,引入提升度、余弦和兴趣度来扩充已有框架,分析关联规则的相关性,以避免传统框架无法充分过滤无用规则的缺点,进一步提高挖掘结果的准确性。总之,通过改善关联规则发现的两个阶段提高算法处理数据的能力和挖掘结果的准确性,进一步扩充算法的应用范围。
其他文献
随着21世纪信息技术的飞速发展,中文手写签名的真伪鉴别在很多领域起着重要作用。为了提高离线签名真伪鉴别方法的准确率和鲁棒性,我们提出了一种新的结合签名稳定性分析的混
随着计算机网络技术与数据库技术的飞速发展,特别是农业信息化建设的大力推进,农业数据资源的Web共享已成为一个热门话题。当前大多数农业数据资源以不同形式存储于各类数据库
图像检索是图像处理和计算机视觉领域的研究热点之一。基于内容的图像检索技术从图像自身的内容特征出发,自动化地检索出满足用户需要的图像,已经成为一个非常活跃的研究领域
无线传感网(Wireless Sensor Network,简称WSN)中,受限于体积与成本,传感器节点的计算能力、存储容量、能量等诸多硬件资源相对匮乏,通常只搭载一种复杂度较低的路由协议以支
随着互联网的普及和计算机技术的发展,各种信息安全与网络安全风险问题也日益突出。作为整个网络安全体系的一个重要组成部分,入侵检测系统对网络数据进行分析,侦测攻击行为,保障
在计算机视觉领域,图像分割一直是一项关键技术,其目的是将图像中具有特殊意义的区域分割开来。作为高层次图像处理的初步阶段,图像分割一直起着至关重要的作用,例如目标定位
随着2010年苹果公司发布iPad,平板电脑这一产品引起人们的关注,受到了广泛欢迎,并且正在逐渐改变人们的生活和娱乐方式。平板电脑市场定位介于智能手机和笔记本电脑之间,在移动和
随着无线传感器网络应用的日益广泛,对无线传感器节点位置信息及其准确性的要求不断提高,如何使无线传感器网络的定位更加准确,吸引了众多研究学者的广泛关注。现有研究主要
图像目标识别是图像理解和计算机视觉领域的热点问题之一,在军用、商用、民用等诸多场合均有广泛的应用前景。而图像中目标物体的定位及图像特征的提取是计算机视觉中一项重
墒情是影响农作物生长的重要条件,对作物的生长和产量起着决定性的作用。农田墒情监测是农业信息化建设的一个重要研究内容,也是数字化农业的发展方向。本文以明光市为例,研究设