论文部分内容阅读
数据信息被誉为当今社会最为宝贵的财富。数据挖掘作为新兴的前沿学科,虽然发展历史较短,但发展态势异常迅猛,尤其是在最近几年。数据挖掘技术有着非常广泛的应用前景和宝贵的推广价值,并且在许多行业和领域里已经获得了非常良好的效益。然而与此形成强烈反差的是数据挖掘在高等教育领域的应用还远远不够,与其它领域对比起来,仍然存在较大差距。本文主要阐述了数据挖掘及数据仓库的一些基本理论知识,重点介绍了关联规则的基本理论以及关联挖掘算法—经典Apriori算法。本文分析了该算法的缺点并针对存在的弊端,给出了Apriori-A、Apriori-B两种优化策略。最后结合亳州师范高等专科学校实际情况,以教学评价为例,着重探讨了关联规则数据挖掘在高校的实践应用。本文所做的主要工作体现在以下几点:(1)在认真学习了相关参考文献的基础上,对数据挖掘与数据仓库的基础理论知识作了细致的梳理,并阐述了数据挖掘应用的重要意义。(2)仔细分析并研究了关联规则算法-Apriori算法,给出伪代码表示,并指出了其存在的缺点。本文给出了两种优化策略Apriori-A和Apriori-B,结合实际的例子对这两种优化算法均作了细致的分析和深入的研讨,并通过例子可以验证其算法效率确实得到改进。(3)以亳州师专教学评价数据库及教师档案等信息为挖掘蓝本,给出了亳州师专基于优化后的Apriori-B算法的数据挖掘模块的整体功能设计框架,并提出两种实现挖掘的方案。最终的实际挖掘结果也表明两种方案仅存在着轻微的支持度和置信度的误差,这也同时验证了自行设计挖掘模块的可行性以及结论的有效性。(4)详细描述了利用优化后的Apriori-B算法应用于教学评价的数据挖掘的过程。其主要包括数据的准备,数据的清理、数据的泛化及变换、属性的约简,数据的挖掘及对结果的细致分析等等。通过具体实践,真正实现了关联规则的数据挖掘技术在高校教学评价中的应用。