论文部分内容阅读
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘被定义为从大量数据中提取或“挖掘”知识或模式的过程。
分类是数据挖掘中一个非常重要的研究课题,它用于提取描述重要数据类的模型。本文利用三种不同的分类学习方案对“人格特征数据库”进行了分类数据挖掘。目的是寻找出该数据库中的分类知识,并比较不同的分类学习方案在该数据库中的性能表现。
“人格特征数据库”是对200多名中专生进行艾森克人格问卷调查得到的数据,在该数据表中共有五个属性。其中前四个属性是数值属性,即通过问卷采用T测试描述的每一个被试者的各种因子得分数值;而第五个属性为类别属性,是通过前面四项的得分确定的每一个被试者的气质类型。根据艾森克人格三维度理论,按人格特征不同,把人的气质类型分为四种:抑郁质、粘液质、胆汁质、多血质。本文利用不同的分类算法对该数据库中的数据进行了分类规则的挖掘,寻找隐藏在这些数据中的规律,以确定每种气质类型的个体具有哪些数值特征,并对不同的分类算法进行了性能分析和比较。
本文的主要研究工作如下:
1、深入探讨了分类算法中的决策树算法,贝叶斯分类算法和基于规则的分类算法各自的原理、工作流程和特点。
2、对“人格特征数据库”中的数据表的内容进行了数据预处理,以便于对其进行深入的分类挖掘。
3、针对“人格特征数据库”采用决策树C4.5、SLIQ、SPRINT三种算法描述了模型建立的过程,并实现了决策树算法在该数据表上模型的建立。作为比较使用weka机器学习器中NaiveBayes和Nnge实现了数据分类挖掘,并得到各自的分类结果。
4、在此基础上对上述三种学习方案得到的结果进行了测试、分析和比较。从而对三种算法之间的性能进行比较,最后得出结论:经典的决策树学习方案具有准确率高、明了易懂的特点,最适合“人格特征数据库”的分类研究。