面向混合数据集的聚类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lanyinghit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同时包含数值型和分类型的混合型数据集在各个领域中普遍存在,包括医学、生物学、金融业等。由于分类型和数值型数据具有不同的特性,在对未标记的数据进行聚类时,两种类型的数据需要区别对待,设计适当的相似性或相异性度量方法起着重要的作用。为了使两种类型的数据可以统一处理,本文从两个角度提出了处理混合型数据的聚类算法。1)基于单纯形向量映射的聚类算法:首先,基于单纯形理论,将分类型属性数据映射到数值向量上,并通过理论证明同一属性的任意值映射后的向量在欧氏距离下距离相同,这样,分类型属性数据转换为了数值型属性数据。然后,将转换后的纯数值型数据应用到K-Means算法框架。实验结果表明:在UCI的4个分类型数据集上,基于单纯形向量映射的聚类算法与Ng的K-modes算法、Cao的K-modes算法和传统向量映射聚类算法相比,将聚类结果的准确度分别提高了1.72%,2.74%和1.86%;在4个混合型数据集上的平均聚类准确度上,基于单纯形向量映射的聚类算法较传统映射聚类算法和K-Prototype算法分别提高了2.68%和2.22%。2)基于熵加权的聚类算法:首先,通过离散化策略将数值型属性数据离散化;然后,基于信息熵理论计算各个分类型属性包含的信息量,并依据此信息量设计加权的相似性度量方法;最后,将提出的相似性度量方法应用于离散化后的数据。在UCI的6个混合型数据集上的实验表明,在聚类准确度上基于熵加权的聚类算法优于OCIL和K-Prototype方法,分别提高了2.13%和4.28%;在6个数值型数据集上,基于熵加权的聚类算法将与K-means算法相比,将聚类准确度提高了6.09%。本文提出的两种聚类算法可以统一处理包含数值型属性和分类型属性的混合型数据集。尤其是基于熵加权的聚类算法验证了各属性包含的信息量不同,对于聚类效果的作用不同,这可以为设计混合型数据集聚类方法提供指导。
其他文献
在数字测试领域,由于测试数据集容量高速增长,单一的数据发生设备很难兼顾各种测试需求,多台设备集成构建超大容量数据集成为发展趋势。在系统集成中,如何高效、快速利用数据发生设备产生测试所需的超大容量数据集,是系统测试效率提升的关键,本文提出的利用多台数据发生设备级联组成数据发生系统的方法,可以有效地解决这个问题。为实现级联模式数据发生系统,本课题从大容量码型数据的压缩、存储、传输以及仪器控制等几个方面
湖南地税发票管理过程中,由于发票开具行为无法得到及时有效的监管,导致虚假发票大量出现,严重威胁税收的征管秩序。近年来,国家税务总局大力推广网络发票的应用,但大量用户
脉冲功率技术的不断进步以及其应用领域的拓展,使得脉冲功率系统对脉冲功率开关的要求越来越高。碳化硅门极可关断晶闸管(SiC gate turn-off thyristor,SiC GTO)是应用在脉冲
软件产品的质量与软件过程密不可分,软件过程为管理软件生命周期过程中难以控制的环节提供了一个框架,在过程模型指导下开发出的软件产品质量的优劣与过程模型的质量息息相关
智能移动机器人作为人工智能发展重要的衍生产品,极大的改变了人类的生产、生活方式。场景识别是针对智能移动机器人研究的一个重要分支,移动机器人的诸多功能如定位、导航、
背景2型糖尿病(type 2 diabetes mellitus,T2DM)是一种可累及全身的慢性代谢性疾病,随着城市化进程加速、人口老龄化、肥胖患病率增加及遗传易感性等问题的凸显,糖尿病发病率
目的:观察姜树民教授之“理气通腑润肠颗粒”治疗肠道气滞型功能性便秘的临床疗效,评估其临床价值,并探讨其作用机理。材料与方法:在2017-10至2019-12于辽宁中医药大学附属医
随着移动互联网的高速发展,人们能够轻易地获取到海量的信息,而这些信息的载体也越来越多样,包含了文本、图片、视频和音频等各种形式,这些形式多样的信息便构成了多模态数据
毫米波大规模MIMO及密集异构网络技术是满足5G通信需求的关键使能技术,可极大提高网络容量与传输速率。然而,在毫米波小小区大量密集部署的异构网络中,UE波束选择与小小区间
目的:百日咳是由百日咳鲍特菌感染引起的一种具有高度传染性的急性呼吸道疾病。近年来,一些疫苗接种率较高的发达国家报告百日咳发病率在多年维持较低水平后再次上升,即所谓