论文部分内容阅读
高等学校多年来的教学和管理中积累了大量的数据,目前这些数据还没有得到有效地利用,只是一个待开发的“宝藏”。数据挖掘可以从大量的数据中提取隐藏在数据背后的有价值信息,在越来越多的领域得到应用,取得了较好的效果,为人们作出正确的决策提供了很大的帮助。为了有效利用高校教学管理工作多年来积累的大量数据,本文对数据挖掘中的决策树算法—ID3算法进行了研究,并结合教育管理信息中数据的特点,对ID3算法进行了改进;根据改进算法设计了教育信息挖掘模DT-EIDM。 决策树学习算法在数据挖掘技术中具有很重要的作用,本文首先研究了决策树学习算法中的ID3算法。此算法有以下三方面不足:(1) 在决策树的每个节点上只选择单个属性,属性间的相关性强调不够,这一缺点导致决策树中子树的重复和有些属性在同一决策树上被多次选择。(2) 在生成决策树过程中,由于递归地划分,一些数据子集可能变得太小,进一步划分它们就失去了统计意义。(3) 倾向于有许多值的属性。 本文针对ID3算法的不足,结合教育管理信息中数据的特点对ID3算法进行了改进,设计、实现了EIDT-DM算法,新算法主要做了以下改进:(1) 大学四年要进行许多门课程的考试,对课程成绩挖掘结果所做的贡献也是不同的,如果考虑所有课程,挖掘涉及的属性就会很多,时间上就会浪费。本文在EIDT-DM算法中引入相关度概念,先对进行挖掘的非分类属性进行相关性分析,将与分类属性相关度小于事先规定的阈值的属性剔除。这减少了子树的重复,有效的降低了决策树的复杂度,从而使生成的知识更容易理解。(2) 在生成决策树过程中,由于反复划分,一些数据子集可能变得太小,使得进一步划分失去了统计意义,为了避免这一问题,算法根据预先设定的分类阈值进行判断,如果给定子集中的样本数少于该阈值,该子集的进一步划分停止。作为替换,创建一个叶节点。在树剪枝时,对作为替换创建的叶节点,找出子集中分类属性具有最大样本数的类别,做为该叶节点的分类属性的值。例如子集中,分类属性=YES的样本个数大于分类属性=NO的样本个数,则该叶节点代表:分类属性=YES。(3) 引进了复合度量基准取代信息增益作为决策属性选