基于数据场的量化关联规则研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:towon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集工具的广泛应用,海量数据的收集和积累导致“数据爆炸”,已经超出了人们理解和掌握的能力,传统的数据分析方法已不能满足需求,数据挖掘和知识发现技术应运而生并得到广泛应用。关联规则挖掘是数据挖掘研究的一个重要分支,用于发现存在于数据库中的属性集之间有趣的关系。量化关联规则挖掘是关联规则挖掘的一个重要研究课题,由于其在商业、生产等诸多领域的广泛应用,越来越受到数据挖掘界的重视与关注。本文在对关联规则挖掘研究的背景下,仔细分析了现如今国内外对量化关联规则挖掘研究的现状以及所采用的挖掘方法,在此基础上展开了对基于数据场的量化关联规则挖掘的研究工作。首先,介绍了数据挖掘技术的基本概念、挖掘对象、挖掘任务、基本过程和分类,然后介绍了关联规则的一些基本理论、概念、挖掘关联规则的基本步骤,重点研究了经典的关联规则的挖掘算法Apriori算法和其在挖掘量化关联规则中所存在的问题。在此基础上,通过运用数据场的思想,并结合数据场中数据之间所呈现出来的特性,提出了基于数据场的量化关联规则,该方法较以往的量化关联规则挖掘方法有以下几点改进:第一,在对数据集挖掘量化关联规则时,先将数据集中的每个数据都映射为数据场中的一个具有一定数据能量的数据点,每个数据点独立地向周围辐射并接收其他数据辐射过来的能量,以体现不同数据对数据挖掘任务的不同作用;第二,聚类部分,对量化属性进行整体聚类,使得聚类得到的属性区间簇更加合理;第三,在选择聚类算法时,结合数据场的特性,分析了K-均值聚类算法的优缺点,扬长补短,从而提高聚类的效果;第四,在计算支持度和置信度时,将每个数据对数据挖掘任务的不同作用体现出来,从而使得计算出来的支持度和置信度对规则的描述更合理。算法使用Microsoft Visual Studio2008开发工具编程实现,为了验证该算法的有效性,分别通过对Iris数据集、身体脂肪bodyfat数据集以及临床医学数据进行量化关联规则的挖掘分析,挖掘得到的量化关联规则与实际相关领域的知识相一致。
其他文献
碰撞检测是计算机图形学、虚拟现实、三维动画等系统领域的重要组成部分和支撑技术。由于虚拟场景复杂度的提高、数据规模的增加,严重影响了碰撞检测的速度和精度。本文首先以
恶劣天气(雨,雪,雾)中充满着大量的悬浮粒子,对光会产生散射和吸收作用,从而造成户外拍摄图像质量下降。目前大多数视觉系统在设计时没有考虑天气对视觉系统的影响,一般只适合晴朗
学位
网络计算、通信技术的发展与面向对象技术的日趋完善,使得分布式对象技术得以广泛的应用。分布式系统的应用环境具有大规模、分散控制、动态性及松散耦合等特征,传统的通信机制
随着我国金融行业的快速发展,大量繁杂的金融数据需要快速有效的处理,而通过最小二乘法来估计参数的多元线性回归算法处理金融数据,难以得到准确的结果。根据金融数据存在多
图像分割的基本原理就是根据某种特性把图像分解成若干区域,并把感兴趣的目标对象提取出来,这些特性可以是灰度、纹理、颜色等。水平集方法在处理图像分割问题上表现出了良好
软件需求描述(如场景)中存在的细节过多、缺乏结构性、不规范、不一致等问题,为后续的软件开发活动带来困难,需求分析是解决上述问题的有效途径。过程建模是目前项目实践中使用较
在广播电视系统中,出于对传统电视兼容和传输带宽成本的考虑,电视信号在传输过程中在将来很长一段时间仍将采用隔行扫描格式。对高清晰度数字电视(HDTV)而言,它们的显示系统只支持
近年来,由于经济的快速发展和计算机科技的普遍应用,应用在户外的监控系统对图像处理技术的要求也越来越高。但是环境问题的日益突出给这些技术的应用带来了挑战,尤其是当前