数据挖掘中抽样技术的应用研究——方法改进与实证分析

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:sxj007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计学领域,抽样技术的研究已经相当成熟,但在数据挖掘领域,抽样技术显然还没有得到它应有的地位。虽然有学者提出在超大型的数据集上应用并行化算法或分块处理来提高数据挖掘的效率可能比用抽样技术更有效,但在本文的实践过程中发现,对于中等数量级(几万到几十万数量级)的数据集,抽样技术有着其他技术不可比拟的优势——速度快,准确性高,易实现。毕竟,实际应用有别于科学研究,对数据分析者来说,如何快速,简便而准确地获得挖掘结果以辅助相关决策的制定才是最终目的,在挖掘实验室以外的地方布置复杂的运算分析环境是得不偿失的。   为了进一步研究抽样技术在数据挖掘中应用的可行性,本文从理论论证和实证研究两个方面展开。理论方面:对数据库中知识发现的过程做出了全面而科学的定义;总结了现行的在数据挖掘领域中广泛应用的抽样技术;归纳了数据挖掘中最重要的三种挖掘方法,并对当前抽样技术与数据挖掘的结合情况做了系统的阐述;对抽样技术在数据挖掘中的应用提出了两种新的方法——改进的静态抽样方法和改进的动态抽样方法。实证方面:列举了基于抽样技术的数据挖掘方法在金融、保险、零售、制造等各个行业的应用情况,并针对理论部分提出的新方法用实际数据做了必要的检验,以比较所研究的抽样方法在改进前后性能的变化情况。   本文主要创新工作如下:   (1)提出且在实践中实现了改进的静态抽样算法,并提出了改进的动态抽样算法的思想。   (2)将改进的抽样技术引入分类、关联、聚类三个挖掘任务中,写出了相应的算法,并在数据挖掘软件上加以实现,对结果进行了分析。   (3)提出了一种新的关联规则挖掘的评估方法,并实现了该评估方法。
其他文献
就业是民生之本,对一国(地区)居民实现自身价值,促进社会和谐发展具有重要的意义,是一国(地区)宏观经济政策的第一目标。我国“十三五”规划纲要中多处提到就业问题,提出了扩
《幼儿园教育指导纲要》指出,幼儿园教育应“以游戏为基本活动”。游戏在幼儿园教育活动中起重要的作用,幼儿通过游戏活动获得知识,从而构建儿童精神世界。角色游戏作为创造性游戏之一,幼儿在活动中通过对主题游戏中角色的扮演,满足在日常生活中的愿望,人格得到了尊重,满足了他们的心理需要,在游戏教育中起重要作用。那么,教师要如何指导幼儿参与角色游戏,更有效地促进幼儿的心理发展呢?  一、做好准备,奠定基础  1
期刊
随着中国经济体制改革的不断深入,各个城市间的收入差距不断扩大,使得地区之间的发展越来越不平衡,这与中国建立和谐社会是十分不相符的。在这种背景之下,关注和研究收入差距的问