论文部分内容阅读
摘 要:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。由于它能够较好的捕捉数据间的重要关系,并且发现的规则形式简洁易于理解,近年来,已经成为数据挖掘领域的一个热点。
关键词:数据挖掘;关联规则挖掘;兴趣度
近年来,计算机网络技术的不断成熟,数据每年都在呈爆炸式增长,保存的大量数据里含有大量信息。数据挖掘就是一种将未被发现的、不规则的信息和知识寻找出来的技术。目前,通过使用数据挖掘技术来减少日常商业运作成本已经是很普遍的事,商业用户对于数据挖掘的需求也日益增加,数据挖掘为我们展现了一个全新的世界,不用在使用存储和简单查询等简单的方法,而是从海量数据里面搜索到我们提供靠经验得不到的信息,它能让决策者在具体问题上做出更科学的判断。
使人感兴趣程度的度量主要在主观和客观两个方面。关联规则兴趣度的客观性就是这个规则能否准确地显示出数据集中蕴含的规律。最常见的客观度量标准是规则的支持度和可信度。很多应用采用支持度-置信度框架进行挖掘。但是,使用支持度-置信度框架挖掘的规则并不完全是可信的,甚至一部分有一定的欺骗性。因此,人们将挖掘出的规则做出相关性分析,来确保最后得到的规则都是可信的。为此,引入兴趣度来剔除实际意义不大的规则是非常急需的。
尽管人们认识到兴趣度问题在整个数据挖掘中是一个重要问题,但是只有少数的数据挖掘系统专门解决了这一问题。就目前而言,关联挖掘中使用的兴趣度大部分是客观性的兴趣度。然而,只使用客观兴趣度是不够的,它很难考虑规则和模式的所有方面,而且兴趣度问题从本质上看就是一个主观性的问题,需要用户具有专业领域知识经验。
在关联规则算法中最经典最具影响力的算法是Apriori 算法,但是 Apriori 算法采用的是逐层迭代方式,这需要将数据库进行多次扫描。然而,我们需要挖掘的是学生对于移动自主学堂的兴趣度。我们也选用了Fp-growth 算法,Fp-growth 算法是一个典型的树压缩算法,不需要产生侯选频繁项集,大大提高了算法的效率。但FP-Growth 算法虽然比 Apriori 算法在性能上有很大提高,它仅需要扫描两次数据库,并且避免了产生大量的候选项集。但 FP-Growth 算法主要的缺陷就是空间开销大,它要要一遍一遍的构建模式树,这个过程是要占很大的内存和空间的,所以数据库很大时,该算法肯定也高效不到哪里去,得改进。
判断一条关联规则是否有趣可以有两个评价标准:客观度量和主观度量。有趣性的客观度量是指关联规则的有趣性是由规则的具体结构和在数据挖掘过程中依赖的数据决定的,这种方法主要是在这些规则上应用统计学方法,用定量的数值来判定规则的有趣性,从而避免了人为的主观意见。因此从这个意义上讲,规则有趣性的客观度量是可靠的。关联规则有趣性的客观度量只是基于数据本身的结构来展开的,但是一个规则是否有趣最终要取决于用户的感觉,数据挖掘工具能够找到满足条件的关联规则,但他不能判定关联规则的实际意义,对关联规则的理解需要熟悉业务背景,丰富的经验和对数据足够的理解,也只有很好的理解挖掘结果,才可以取其精华。我们应该将用户的需求和挖掘系统结合起来才能挖掘出更加有效的关联规则。因此,判断规则的有趣性必须考虑到主观层面上的意义。有趣性的主观度量是指关联规则的有趣性不仅由规则的具体结构和在数据挖掘过程所依赖的数据决定 ,而还应与使用规则的用户感觉有关。也就是说 ,在评价规则的有趣性时要体现用户参与和领域知识的融合等主观因素。
而我们考虑关联规则挖掘算法的性能主要看以下几点:
1.关联规则的有效性
关联规则的有效性是对于用户而言的。对用户有用的规则才是有效的,可行的。
2.挖掘关联规则过程的交互性
简单来说就是挖掘过程中用户多程序的可控制度。
3.关联规则的完整性
算法挖掘出来的规则必须是全面的,没有遗漏的就是关联规则的完整性。不能单纯的为了时空效率而将没有用的规则挖掘出来。
本文讨论了基于兴趣度的数据挖掘的相关问题,数据挖掘的研究已经引起了各行业的广泛关注,而其中关联规则的研究主要集中在两个方面:一是可行性算法的效率问题,二是挖掘规则的实用性问题。广大学者从这两个方面出发研究高质量的关联规则算法,我们希望通过大量的数据积累找到真正可以指导我们实践的方法。在信息时代,知识发现的要求越来越直接,数据本身的稳定特征给用户的指导比经验更可靠。
参考文献:
[1] 朱建军.《Internet环境下的教学观念》.中国电子商务 ,2009年.
[2] 李克东、谢幼如.《多媒体组合教学设计》.科学出版社,1993年修订版.
[3] 钱文静、 邓仲华.《云计算与信息资源共享管理》.1003-6938(2009)04-0047-0.
[1]田生伟、禹龙.《关联规则挖掘在数据录入校对系统中的应用》.微计算机信息,2003,19(11):95-96.
[2]周皓峰、朱扬勇.《一个基于兴趣度的关联规则采掘算法》.计算机研究与发展,2002,39(4):450-457.
[3]朱扬勇.《数据挖掘技术现状》.中国传媒科技,2006,2(12):13-16.
项目编号:201310476113,项目名称:基于云计算的移动自主学堂设计与实现;
项目编号:201310476108,项目名称: 基于移动技术的学习公共服务平台研究。
关键词:数据挖掘;关联规则挖掘;兴趣度
近年来,计算机网络技术的不断成熟,数据每年都在呈爆炸式增长,保存的大量数据里含有大量信息。数据挖掘就是一种将未被发现的、不规则的信息和知识寻找出来的技术。目前,通过使用数据挖掘技术来减少日常商业运作成本已经是很普遍的事,商业用户对于数据挖掘的需求也日益增加,数据挖掘为我们展现了一个全新的世界,不用在使用存储和简单查询等简单的方法,而是从海量数据里面搜索到我们提供靠经验得不到的信息,它能让决策者在具体问题上做出更科学的判断。
使人感兴趣程度的度量主要在主观和客观两个方面。关联规则兴趣度的客观性就是这个规则能否准确地显示出数据集中蕴含的规律。最常见的客观度量标准是规则的支持度和可信度。很多应用采用支持度-置信度框架进行挖掘。但是,使用支持度-置信度框架挖掘的规则并不完全是可信的,甚至一部分有一定的欺骗性。因此,人们将挖掘出的规则做出相关性分析,来确保最后得到的规则都是可信的。为此,引入兴趣度来剔除实际意义不大的规则是非常急需的。
尽管人们认识到兴趣度问题在整个数据挖掘中是一个重要问题,但是只有少数的数据挖掘系统专门解决了这一问题。就目前而言,关联挖掘中使用的兴趣度大部分是客观性的兴趣度。然而,只使用客观兴趣度是不够的,它很难考虑规则和模式的所有方面,而且兴趣度问题从本质上看就是一个主观性的问题,需要用户具有专业领域知识经验。
在关联规则算法中最经典最具影响力的算法是Apriori 算法,但是 Apriori 算法采用的是逐层迭代方式,这需要将数据库进行多次扫描。然而,我们需要挖掘的是学生对于移动自主学堂的兴趣度。我们也选用了Fp-growth 算法,Fp-growth 算法是一个典型的树压缩算法,不需要产生侯选频繁项集,大大提高了算法的效率。但FP-Growth 算法虽然比 Apriori 算法在性能上有很大提高,它仅需要扫描两次数据库,并且避免了产生大量的候选项集。但 FP-Growth 算法主要的缺陷就是空间开销大,它要要一遍一遍的构建模式树,这个过程是要占很大的内存和空间的,所以数据库很大时,该算法肯定也高效不到哪里去,得改进。
判断一条关联规则是否有趣可以有两个评价标准:客观度量和主观度量。有趣性的客观度量是指关联规则的有趣性是由规则的具体结构和在数据挖掘过程中依赖的数据决定的,这种方法主要是在这些规则上应用统计学方法,用定量的数值来判定规则的有趣性,从而避免了人为的主观意见。因此从这个意义上讲,规则有趣性的客观度量是可靠的。关联规则有趣性的客观度量只是基于数据本身的结构来展开的,但是一个规则是否有趣最终要取决于用户的感觉,数据挖掘工具能够找到满足条件的关联规则,但他不能判定关联规则的实际意义,对关联规则的理解需要熟悉业务背景,丰富的经验和对数据足够的理解,也只有很好的理解挖掘结果,才可以取其精华。我们应该将用户的需求和挖掘系统结合起来才能挖掘出更加有效的关联规则。因此,判断规则的有趣性必须考虑到主观层面上的意义。有趣性的主观度量是指关联规则的有趣性不仅由规则的具体结构和在数据挖掘过程所依赖的数据决定 ,而还应与使用规则的用户感觉有关。也就是说 ,在评价规则的有趣性时要体现用户参与和领域知识的融合等主观因素。
而我们考虑关联规则挖掘算法的性能主要看以下几点:
1.关联规则的有效性
关联规则的有效性是对于用户而言的。对用户有用的规则才是有效的,可行的。
2.挖掘关联规则过程的交互性
简单来说就是挖掘过程中用户多程序的可控制度。
3.关联规则的完整性
算法挖掘出来的规则必须是全面的,没有遗漏的就是关联规则的完整性。不能单纯的为了时空效率而将没有用的规则挖掘出来。
本文讨论了基于兴趣度的数据挖掘的相关问题,数据挖掘的研究已经引起了各行业的广泛关注,而其中关联规则的研究主要集中在两个方面:一是可行性算法的效率问题,二是挖掘规则的实用性问题。广大学者从这两个方面出发研究高质量的关联规则算法,我们希望通过大量的数据积累找到真正可以指导我们实践的方法。在信息时代,知识发现的要求越来越直接,数据本身的稳定特征给用户的指导比经验更可靠。
参考文献:
[1] 朱建军.《Internet环境下的教学观念》.中国电子商务 ,2009年.
[2] 李克东、谢幼如.《多媒体组合教学设计》.科学出版社,1993年修订版.
[3] 钱文静、 邓仲华.《云计算与信息资源共享管理》.1003-6938(2009)04-0047-0.
[1]田生伟、禹龙.《关联规则挖掘在数据录入校对系统中的应用》.微计算机信息,2003,19(11):95-96.
[2]周皓峰、朱扬勇.《一个基于兴趣度的关联规则采掘算法》.计算机研究与发展,2002,39(4):450-457.
[3]朱扬勇.《数据挖掘技术现状》.中国传媒科技,2006,2(12):13-16.
项目编号:201310476113,项目名称:基于云计算的移动自主学堂设计与实现;
项目编号:201310476108,项目名称: 基于移动技术的学习公共服务平台研究。