数据挖掘算法研究及其在铁路员工培训系统中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:AAAz12300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库知识发现(KnowledgeDiscoveryinDatabase,KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,KDD受到了国内外普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的部分。KDD被认为是从数据中发现有用知识的整个过程,而数据挖掘(DataMining,DM)被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。 数据挖掘作为一种高效、深层次的数据分析处理技术,其目的在于从大量的数据中提取出隐含在其中的潜在信息,这些信息将为人们进行各种决策分析提供有力依据。如何利用数据挖掘技术对现有的大量数据进行分析处理,具有重要的实际应用价值。目前数据挖掘的研究主要集中在如何完成各种知识发现任务,如分类知识发现、聚类知识发现、关联规则发现等。研究的重点在具体的数据挖掘算法,算法研究的目的在于提高挖掘的效率及挖掘结果的实用性。 本文以实现铁路员工培训系统中培训资源和培训模式选择的优化为目标。首先在初步调研与分析知识发现与数据挖掘相关理论与应用的基础上,归纳了该领域的主要研究内容和关键技术。进而结合数据挖掘的应用现状和理论基础,重点分析了分类、聚类算法的理论、方法和实现技术。研究的主要内容有数据挖掘的过程模型、数据预处理、决策树分类和聚类的常用算法等。然后介绍了目前铁路员工培训资源与培训模式的现状及现有铁路员工培训系统的作用和意义。并着重分析了系统中存在的问题,在培训资源与培训模式方面提出了改进方案。最后利用聚类与分类算法对培训资源与培训模式进行优化,并对所搜集的现有培训资源与培训模式进行了聚类和分类挖掘,分析了已有数据的规律,期望对未知类别的数据进行预测。本文所提出的培训资源与培训模式优化选择方案对铁路员工培训具有一定的指导及帮助作用。 本文主要研究工作如下:1、介绍数据挖掘算法中基本分类算法—决策树分类算法,进行了系统的总结,给出了决策树算法的处理流程以及决策树生成过程,对经典的决策树算法进行了比较,分析了各自的优缺点。 2、针对经典决策树与人的思维及感知认识上的不相符,对连续属性处理的缺陷,引入模糊决策树算法,深入研究了模糊决策树算法的实现策略,在此基础上提出了一种新的模糊决策树算法—模糊基尼系数法。 3、对聚类算法中的经典K均值法进行描述,指出该算法的不足之处,提出了一种改进的K均值算法,并对二者的性能进行了比较,证明了改进后的K均值算法优于经典K均值算法。 4、基于本文所阐述的决策树算法和聚类算法,设计了一个关于铁路员工培训资源与培训模式的优化选择方案,对培训资源与培训模式进行分析与预测,可以提高员工培训质量。 本文针对上述研究内容,进行了大量的实验研究和论证。结果表明,本文的理论、方法与技术基本正确有效,所涉及的铁路员工培训系统培训资源与培训模式优化方案对实际员工培训可提供一定的指导作用,具有良好的实际应用前景。
其他文献
随着信息技术和网络技术的发展,传统的人工出卷模式逐渐向计算机化考试转变。正是在这种形势下,试题库系统得到不断地研究并大量投入使用。基于计算机的考试系统能够充分地利用试题库资源,有效地避免人为因素对考试的影响,大大提高了工作效率。智能试题库系统作为南阳电力局调度员培训仿真系统(南阳DTS)的一部分,主要目的是提供一个试题库管理和考试平台,以考促学,促进电力调度员的快速成长。系统包括了试题库和在线考试
在视频传输系统及存储中,最大障碍是视频数据的大数据量,故压缩就显得尤为必要。MJPEG是以每秒25帧传输的JPEG图像。本文根据JPEG基本压缩原理为根据,通过前端图像采集芯片SAA71
在经济全球化的时代背景下,本文以商业银行零售客户为研究主体,以零售客户的价值评价和客户终身价值评估为研究对象,期望为实现商业银行的规模经济和范围经济添砖加瓦,也为辅助商
VMI是一种新的供应链仓储管理思想,它适应了强调整体观念、要求具有合作与协调性的供应链管理环境,并得到了广泛的研究和应用。目前,对于由供应商实施的VMI分散模式已有很多成功
中学音乐欣赏在培养学生健康的审美情趣、树立正确的审美观念、培养高尚的情操和道德修养方面有着不可替代的作用,尤其是古今中外优秀的音乐作品为我们实施审美教育,全面提升学
省级银行办公大楼为全省各项业务处理中心,除普通办公需求外,另设有大型网路中心和金库。其防雷安全性要求更高。本文首先对雷电学基础理论进行简要介绍。对雷击风险评估技术
随着我国证券交易市场的蓬勃发展,投资者队伍不断壮大,违法违规的市场交易案呈现日益上涨的趋势。违法交易影响股票市场的稳定,并损害了中小投资者的利益,严重时引起社会不安定。
MDA(模型驱动架构)是OMG组织在其提出UML(统一建模语言)后又力推的一种新的软件开发框架,是在UML的基础上构建的一个更高抽象层次的开发架构。MDA的提出,使得模型执行逐渐趋于
从系统科学的角度看,生命体是一个开放的复杂巨系统。DNA、RNA和蛋白质都在生命活动中扮演着不同的角色。近年来,新发现了一类长约21~24nt的非编码小分子RNA——MicroRNA(miRNA)
随着技术的进步和不断完善,数字图像处理技术在各个领域中应用越来越广泛。而相机照相中存在以下事实:对于同一场景中的所有目标都聚焦清晰很困难,尤其对于距离相差甚远的不同目