论文部分内容阅读
在统计学领域,抽样技术的研究已经相当成熟,但在数据挖掘领域,抽样技术显然还没有得到它应有的地位。虽然有学者提出在超大型的数据集上应用并行化算法或分块处理来提高数据挖掘的效率可能比用抽样技术更有效,但在本文的实践过程中发现,对于中等数量级(几万到几十万数量级)的数据集,抽样技术有着其他技术不可比拟的优势——速度快,准确性高,易实现。毕竟,实际应用有别于科学研究,对数据分析者来说,如何快速,简便而准确地获得挖掘结果以辅助相关决策的制定才是最终目的,在挖掘实验室以外的地方布置复杂的运算分析环境是得不偿失的。
为了进一步研究抽样技术在数据挖掘中应用的可行性,本文从理论论证和实证研究两个方面展开。理论方面:对数据库中知识发现的过程做出了全面而科学的定义;总结了现行的在数据挖掘领域中广泛应用的抽样技术;归纳了数据挖掘中最重要的三种挖掘方法,并对当前抽样技术与数据挖掘的结合情况做了系统的阐述;对抽样技术在数据挖掘中的应用提出了两种新的方法——改进的静态抽样方法和改进的动态抽样方法。实证方面:列举了基于抽样技术的数据挖掘方法在金融、保险、零售、制造等各个行业的应用情况,并针对理论部分提出的新方法用实际数据做了必要的检验,以比较所研究的抽样方法在改进前后性能的变化情况。
本文主要创新工作如下:
(1)提出且在实践中实现了改进的静态抽样算法,并提出了改进的动态抽样算法的思想。
(2)将改进的抽样技术引入分类、关联、聚类三个挖掘任务中,写出了相应的算法,并在数据挖掘软件上加以实现,对结果进行了分析。
(3)提出了一种新的关联规则挖掘的评估方法,并实现了该评估方法。