基于决策树的教育信息挖掘模型(DT-EIDM)的设计与实现

来源 :上海海事大学 | 被引量 : 13次 | 上传用户:game780
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高等学校多年来的教学和管理中积累了大量的数据,目前这些数据还没有得到有效地利用,只是一个待开发的“宝藏”。数据挖掘可以从大量的数据中提取隐藏在数据背后的有价值信息,在越来越多的领域得到应用,取得了较好的效果,为人们作出正确的决策提供了很大的帮助。为了有效利用高校教学管理工作多年来积累的大量数据,本文对数据挖掘中的决策树算法—ID3算法进行了研究,并结合教育管理信息中数据的特点,对ID3算法进行了改进;根据改进算法设计了教育信息挖掘模DT-EIDM。 决策树学习算法在数据挖掘技术中具有很重要的作用,本文首先研究了决策树学习算法中的ID3算法。此算法有以下三方面不足:(1) 在决策树的每个节点上只选择单个属性,属性间的相关性强调不够,这一缺点导致决策树中子树的重复和有些属性在同一决策树上被多次选择。(2) 在生成决策树过程中,由于递归地划分,一些数据子集可能变得太小,进一步划分它们就失去了统计意义。(3) 倾向于有许多值的属性。 本文针对ID3算法的不足,结合教育管理信息中数据的特点对ID3算法进行了改进,设计、实现了EIDT-DM算法,新算法主要做了以下改进:(1) 大学四年要进行许多门课程的考试,对课程成绩挖掘结果所做的贡献也是不同的,如果考虑所有课程,挖掘涉及的属性就会很多,时间上就会浪费。本文在EIDT-DM算法中引入相关度概念,先对进行挖掘的非分类属性进行相关性分析,将与分类属性相关度小于事先规定的阈值的属性剔除。这减少了子树的重复,有效的降低了决策树的复杂度,从而使生成的知识更容易理解。(2) 在生成决策树过程中,由于反复划分,一些数据子集可能变得太小,使得进一步划分失去了统计意义,为了避免这一问题,算法根据预先设定的分类阈值进行判断,如果给定子集中的样本数少于该阈值,该子集的进一步划分停止。作为替换,创建一个叶节点。在树剪枝时,对作为替换创建的叶节点,找出子集中分类属性具有最大样本数的类别,做为该叶节点的分类属性的值。例如子集中,分类属性=YES的样本个数大于分类属性=NO的样本个数,则该叶节点代表:分类属性=YES。(3) 引进了复合度量基准取代信息增益作为决策属性选
其他文献
近年来,随着多媒体技术和Web技术的迅速发展,现代计算机技术特别是海量存储技术与传输技术的成熟,视频作为一种主要的媒体类型在人们的生活、教育、娱乐等方面日益成为不可或缺
房地产数据仓库中存储大量历史数据,OLAP对此历史数据进行复杂的查询,查询优化是提高OLAP响应速度的关键。目前,最有效的方法是增加综合数据的存储,但存储空间限制了综合数据的存
藏品保护和藏品利用是传统博物馆面临的一对功能矛盾,数字博物馆是解决这对矛盾的有效技术手段,它是以采集、保护、管理和利用人类文化和自然遗产信息资源为目的而建立的信息网
因特网的普及使计算模式继主机计算和桌面计算之后进入普适计算模式。这种全新的计算模式将使计算机不再局限于桌面,而是嵌入到我们的工作、生活空间中,变为手持或可穿戴的设
符号模式矩阵是组合矩阵中当前国际上十分活跃的一个研究课题,其重要原因之一是它在经济学,生物学,化学,社会学,计算机科学等众多学科中具有广泛的实际应用背景。符号模式矩
近年来,为了适应日趋激烈的竞争环境,企业软件在企业的管理中发挥着越来越重要的作用。在企业软件的开发过程中,由于系统庞大,用户的需求各不相同,所以需求分析和建模过程就
能源作为经济增长和社会发展的根本动力,在国际上具有十分重要的地位。在中国经济对能源日渐依赖的背景之下,能源问题早已经成为了人们日渐关注的问题。其中,能源价格问题是整个
多代理调度是拥有独立工件集的代理根据各自优化目标竞争使用共享资源,带有学习效应和退化工件的多代理单机调度是近几年新出现的研究问题,但由于多代理下的工件交替加工而导致
Internet和Web技术的发展为现代办公自动化系统提供了新的管理理念和技术支持。基于J2EE的柔性办公自动化系统通过构建一个开放性的办公环境,克服了传统办公系统功能单一、难
移动数据业务发展到今天,历经“蛮荒期”、“规范期”后,最终要进入到“成熟期”。如何以用户为中心,为用户提供优质的数据业务服务,催生了数据业务深度运营的管理需求。对移动数