论文部分内容阅读
近年来我国高等院校毕业生的就业问题不断突现出来,原因不仅包括经济改革、高等院校扩招、教育资源紧缺、就业模式不健全等,还包括高等教育模式不适应社会要求的重要因素。深化高等教育改革、改进高校学生的培养模式已刻不容缓。普通高校需要面向社会,培养应用型人才。 本文试图通过数据挖掘技术,发现学生的受教育属性和就业属性之间的关联性,找出社会需要的应用型人才的模型,从而给决策者提供指导或数据支持,改进现有的教育模式。 关联规则挖掘是数据挖掘的重要内容之一,1993年由Agrawal等人提出了Apriori算法。目前,关联规则挖掘技术已经被应用到商业、电讯、金融、农业、医疗等领域,取得了良好的效果。 由于Apriori算法是以分析事务数据库中项(属性)与项之间联系为目标,各项的值均为布尔型,而教育信息中涉及大量的量化属性,其值为连续的离散值。后来的研究者们对Apriori算法原型进行多方面的改进和扩充,以适应不同的挖掘需要,其中包括引入部分完全性概念来处理量化属性。 本文处理的数据包括量化属性和分类属性,文中首先介绍了部分完全性方法,它可以量化由于给连续离散值划分区间而导致的信息丢失。然而直接应用该方法可能导致产生大量的相似的规则,因此文中引入了一种基于期望兴趣度的度量方法以便在规则输出后确定其兴趣度。该方法同时关注规则的泛化和特化,以识别有趣规则。 同时由于区间的划分带来了项的数量大量增加的问题,导致搜索范围增加、速度下降。因此我们设计了将待挖掘数据和项集均用位串表示的方法,以位操作(与、或、异或等)来实现项集的连接、剪枝等步骤;同时由于待挖掘数据存储空间的减少,从而避免了频繁换页,从整体上提到了搜索速度。 根据以上设计原则,我们设计了一个基于量化关联规则挖掘的就业分析系统,给出了系统总体结构、各模块的功能和详细设计、数据库模式的设计,开发并实现了大部分功能。同时进行了挖掘实验,得到了较理想的结果。