数据分类挖掘在人格特征分析方面的应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:tubage1022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘被定义为从大量数据中提取或“挖掘”知识或模式的过程。   分类是数据挖掘中一个非常重要的研究课题,它用于提取描述重要数据类的模型。本文利用三种不同的分类学习方案对“人格特征数据库”进行了分类数据挖掘。目的是寻找出该数据库中的分类知识,并比较不同的分类学习方案在该数据库中的性能表现。   “人格特征数据库”是对200多名中专生进行艾森克人格问卷调查得到的数据,在该数据表中共有五个属性。其中前四个属性是数值属性,即通过问卷采用T测试描述的每一个被试者的各种因子得分数值;而第五个属性为类别属性,是通过前面四项的得分确定的每一个被试者的气质类型。根据艾森克人格三维度理论,按人格特征不同,把人的气质类型分为四种:抑郁质、粘液质、胆汁质、多血质。本文利用不同的分类算法对该数据库中的数据进行了分类规则的挖掘,寻找隐藏在这些数据中的规律,以确定每种气质类型的个体具有哪些数值特征,并对不同的分类算法进行了性能分析和比较。   本文的主要研究工作如下:   1、深入探讨了分类算法中的决策树算法,贝叶斯分类算法和基于规则的分类算法各自的原理、工作流程和特点。   2、对“人格特征数据库”中的数据表的内容进行了数据预处理,以便于对其进行深入的分类挖掘。   3、针对“人格特征数据库”采用决策树C4.5、SLIQ、SPRINT三种算法描述了模型建立的过程,并实现了决策树算法在该数据表上模型的建立。作为比较使用weka机器学习器中NaiveBayes和Nnge实现了数据分类挖掘,并得到各自的分类结果。   4、在此基础上对上述三种学习方案得到的结果进行了测试、分析和比较。从而对三种算法之间的性能进行比较,最后得出结论:经典的决策树学习方案具有准确率高、明了易懂的特点,最适合“人格特征数据库”的分类研究。
其他文献
随着Internet的快速发展,互联网中蕴含了海量的信息资源,按其所蕴含信息的“深度”可以将其划分为Deep Web和Surface Web。Deep Web中蕴藏的信息比SurfaceWeb中的信息规模更
随着网络在社会、经济、生活等各个方面重要性的不断提升,越来越多地研究机构和科研人员开始从事网络拓扑结构方面的研究。网络拓扑检测是将检测到的网络设备及其之间的动态
本文作者参与青岛崂山智能视频监控系统的开发工作,对该系统中运动目标检测与跟踪、无线网中流媒体传输策略等关键问题的理论基础和实现技术进行了深入的研究。本文以该课题为
随着互联网技术的高速发展,网络传输速率显著增加,网络应用复杂性增强,使得网络蠕虫成为网络系统安全的重要威胁。从1988年第一个网络蠕虫Morris到疯狂传播的ANI蠕虫,CERT(计
随着网络规模的不断扩大和上网用户的大量增加,视频点播服务已经成为当前网络应用的热点之一。但是传统的C/S模式的流媒体服务系统由于服务器性能和服务器端的带宽资源有限,使
密码学在保障信息安全方面起着至关重要的作用。门限秘密共享是密码学的重要组成部分,它能够分散责任,进一步提高了系统的安全性和健壮性,在保存重要信息、密钥管理、团体签
IEEE 802.16系列标准又称为WirelessMAN空中接口标准,是由WiMAX论坛主推的宽带无线接入标准,主要应用于无线城域网(WMAN,Wireless MetropolitanArea Network)范围。本论文研
随着互联网信息资源的指数增长,如何实现海量文本数据的自动分析已成为日益紧迫的研究课题。近年来,作为文本自动分析的重要手段,文本聚类及热点信息发现逐渐受到研究者的重
真实感图形学作为一种图形生成技术,一直是计算机图形学研究的前沿领域。随着计算机软硬件技术近年来的迅速发展,三维图形的高度真实感目标日益接近,其应用愈来愈广。真实感
随着计算机技术日新月异,许多电子商务交易应用需要在多种平台之间移植,并且需要可靠、高效的数据传输。交易中间件的出现屏蔽了异构系统中复杂的操作系统和网络协议,但随着