论文部分内容阅读
数据库知识发现(KnowledgeDiscoveryinDatabase,KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,KDD受到了国内外普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的部分。KDD被认为是从数据中发现有用知识的整个过程,而数据挖掘(DataMining,DM)被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。
数据挖掘作为一种高效、深层次的数据分析处理技术,其目的在于从大量的数据中提取出隐含在其中的潜在信息,这些信息将为人们进行各种决策分析提供有力依据。如何利用数据挖掘技术对现有的大量数据进行分析处理,具有重要的实际应用价值。目前数据挖掘的研究主要集中在如何完成各种知识发现任务,如分类知识发现、聚类知识发现、关联规则发现等。研究的重点在具体的数据挖掘算法,算法研究的目的在于提高挖掘的效率及挖掘结果的实用性。
本文以实现铁路员工培训系统中培训资源和培训模式选择的优化为目标。首先在初步调研与分析知识发现与数据挖掘相关理论与应用的基础上,归纳了该领域的主要研究内容和关键技术。进而结合数据挖掘的应用现状和理论基础,重点分析了分类、聚类算法的理论、方法和实现技术。研究的主要内容有数据挖掘的过程模型、数据预处理、决策树分类和聚类的常用算法等。然后介绍了目前铁路员工培训资源与培训模式的现状及现有铁路员工培训系统的作用和意义。并着重分析了系统中存在的问题,在培训资源与培训模式方面提出了改进方案。最后利用聚类与分类算法对培训资源与培训模式进行优化,并对所搜集的现有培训资源与培训模式进行了聚类和分类挖掘,分析了已有数据的规律,期望对未知类别的数据进行预测。本文所提出的培训资源与培训模式优化选择方案对铁路员工培训具有一定的指导及帮助作用。
本文主要研究工作如下:1、介绍数据挖掘算法中基本分类算法—决策树分类算法,进行了系统的总结,给出了决策树算法的处理流程以及决策树生成过程,对经典的决策树算法进行了比较,分析了各自的优缺点。
2、针对经典决策树与人的思维及感知认识上的不相符,对连续属性处理的缺陷,引入模糊决策树算法,深入研究了模糊决策树算法的实现策略,在此基础上提出了一种新的模糊决策树算法—模糊基尼系数法。
3、对聚类算法中的经典K均值法进行描述,指出该算法的不足之处,提出了一种改进的K均值算法,并对二者的性能进行了比较,证明了改进后的K均值算法优于经典K均值算法。
4、基于本文所阐述的决策树算法和聚类算法,设计了一个关于铁路员工培训资源与培训模式的优化选择方案,对培训资源与培训模式进行分析与预测,可以提高员工培训质量。
本文针对上述研究内容,进行了大量的实验研究和论证。结果表明,本文的理论、方法与技术基本正确有效,所涉及的铁路员工培训系统培训资源与培训模式优化方案对实际员工培训可提供一定的指导作用,具有良好的实际应用前景。