论文部分内容阅读
数据挖掘是个新兴的研究领域,涉及到统计学、数据库、机器学习等众多学科,正以其强大的功能和广泛的应用受到高度的关注。数据挖掘的方法众多,其中分类、聚类方法是数据挖掘应用最多的方法,而算法研究是数据挖掘研究领域的重中之重,算法的好坏直接影响到数据挖掘的效率,所以本文主要深入系统地研究分类、聚类算法。虽然目前研究分类、聚类算法的文章比较多,但大多数研究只停留在理论上的探讨,并没有相应的算法实现。本文着重于算法实现的研究,在国内首次利用R语言实现数据挖掘算法,因为R语言相对于其他一些软件有着免费、开放源代码、算法更新速度快等优点。论文第一章介绍数据挖掘的研究背景、目的和意义以及研究方法和框架。第二章主要介绍比较各分类算法及R语言实现,包括基于距离分类的KNN算法;基于决策树方法的C4.5算法、CART算法;基于神经网络的BP算法。第三章主要介绍比较各种聚类算法及R语言实现。具体介绍了划分方法的K-means、pam、clara算法;层次方法的AGNES、DIANA算法;基于密度聚类方法的DBSCAN算法;基于模型聚类方法的COBWEB算法;基于模糊聚类方法的FCM算法。第四章实证分析主要以台湾教授蔡欣玲就护理人员离职调查的数据为例,按数据挖掘的标准流程CRISP-DM进行分析,首先对数据作初步统计分析,掌握护理人员的初步情况,再接着利用聚类方法来分析医院护理人员的离职意愿,然后利用分类方法建立预测模型。第五章对本文的研究情况进行总结并展望。