类别型数据的划分迁移聚类

来源 :浙江大学 | 被引量 : 0次 | 上传用户:junar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据分析中,聚类分析的目的是发现相似数据的集合。其中,划分迁移类方法(如k-means)是一个基本的方法。对于类别型数据,由于它的距离度量不同于数值型数据,因此存在一些特殊的方法。本文提出一种新的用于类别型数据的划分迁移类方法,在保持高效的同时,能比现有方法获得更好的聚类结果。  对于专门用于类别型数据的聚类方法k-modes和常用于数值型数据的k-means,本文比较它们的目标函数的不同特点。对于k-means,本文提出它在用于类别型数据时的合理性,和高效运算的方法。实验证实:k-means的目标函数比k-modes的目标函数的聚类结果更好。  本文提出的新的聚类方法是:使用Transfer算法优化一个合理的目标函数(聚类内分散度)。该方法能处理任意距离,因此它的通用性优于k-means。同时,Transfer算法的时间复杂度和k-modes、k-means相当。通过实验得出,本文方法的聚类结果比k-modes类方法更准确。  在本文聚类方法的基础上,研究了类别型数据的距离。通过测试多种距离在真实数据集上的聚类表现,分析距离的选取对聚类的影响,和实践中距离的选择。  最后,研究了针对本文聚类方法的初始化方法。借鉴k-means的初始化方法,应用到本文使用的目标函数中。对于初始化时如何把数据点分配到初始聚类的问题,本文提出一个新的分配方法,它能更好地优化目标函数。
其他文献
随着计算机技术的不断发展,实时嵌入式系统在现代生活中得到了越来越广泛的应用,从家用的微波炉、洗衣机,到工业界的汽车、交通灯和铁路,甚至是导弹制导、空中交通管制等。实
本论文主要针对Flash型FPGA芯片的基本特点及其空间应用需求,对其抗单粒子技术进行研究。  首先,本文广泛研究了空间环境对FPGA的影响以及FPGA单粒子效应的机理和故障模式,并
首先简要介绍了软件工业化生产的方向和复用技术对它的重要性,并阐述了其困难性的根本原因.然后论述了哲学和计算机科学及面向功能体方法的联系,从管理学原理、脑科学和数据
该文首先从分析对象的角度对视频分析技术的研究现状进行了综合论述.并且通过对视频分析技术的现状分析,提出了该领域可能的发展趋势.该文用基于图像序列特征的视频分析的方
随着因特网技术的发展,越来越多的人们倾向于在网上搜索和发布信息。人才市场管理系统是以B/S(浏览器/服务器)体系结构作为基本架构,采用ADO实现对数据库的存取,以IIS 5.0作为Web
软件体系结构对于系统的分析和重用起着至关重要的作用.而要充分利用软件体系结构就必须它进行准确的、全面的、无二义性的描述. 为了克服以上的问题,更好的描述软件体系结构
随着网络技术和数据库技术的发展,人们对网络中数据资源的共享越来越迫切,但这些数据库资源往往存在广泛的异构性。此外,硬件平台的异构、操作系统的异构及网络的异构使得异构问
本文分析了在管理信息系统中集成实时监控系统信息遇到的问题,如跨操作系统平台接收数据、处理网络故障和数据库的故障的自恢复功能、如何处理海量数据等,并针对这些问题结合实
该文提出OMNets和UNINET是为了用多级抽象的方法全面刻画并发对象系统的行为.我们把对象系统模型抽象为4个层次,分别是:系统的行为,对象的行为,对象中方法之间的交互行为以及
该文针对汉语,研究焦点为自然语音在纯声学层面上的发音建模问题,从相互作用且密切相关的识别基元集、发音词典和声学模型等角度出发,提出了如下的方法和策略.第一,汉语声韵