类别型数据的划分迁移聚类

来源 :浙江大学 | 被引量 : 0次 | 上传用户：junar

【摘要】

：

在数据分析中，聚类分析的目的是发现相似数据的集合。其中，划分迁移类方法（如k-means）是一个基本的方法。对于类别型数据，由于它的距离度量不同于数值型数据，因此存在一些特殊的方

【作者】

：

项峥嵘

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2014年期

【关键词】

：

类别型数据聚类分析划分迁移聚类法目标函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在数据分析中，聚类分析的目的是发现相似数据的集合。其中，划分迁移类方法（如k-means）是一个基本的方法。对于类别型数据，由于它的距离度量不同于数值型数据，因此存在一些特殊的方法。本文提出一种新的用于类别型数据的划分迁移类方法，在保持高效的同时，能比现有方法获得更好的聚类结果。　　对于专门用于类别型数据的聚类方法k-modes和常用于数值型数据的k-means，本文比较它们的目标函数的不同特点。对于k-means，本文提出它在用于类别型数据时的合理性，和高效运算的方法。实验证实:k-means的目标函数比k-modes的目标函数的聚类结果更好。　　本文提出的新的聚类方法是:使用Transfer算法优化一个合理的目标函数（聚类内分散度）。该方法能处理任意距离，因此它的通用性优于k-means。同时，Transfer算法的时间复杂度和k-modes、k-means相当。通过实验得出，本文方法的聚类结果比k-modes类方法更准确。　　在本文聚类方法的基础上，研究了类别型数据的距离。通过测试多种距离在真实数据集上的聚类表现，分析距离的选取对聚类的影响，和实践中距离的选择。　　最后，研究了针对本文聚类方法的初始化方法。借鉴k-means的初始化方法，应用到本文使用的目标函数中。对于初始化时如何把数据点分配到初始聚类的问题，本文提出一个新的分配方法，它能更好地优化目标函数。

其他文献

基于RTX的UML交互行为模型仿真方法

随着计算机技术的不断发展,实时嵌入式系统在现代生活中得到了越来越广泛的应用,从家用的微波炉、洗衣机,到工业界的汽车、交通灯和铁路,甚至是导弹制导、空中交通管制等。实

学位

UMLMARTE实时性模型转换C++RTX

Flash型FPGA抗单粒子效应技术研究

本论文主要针对Flash型FPGA芯片的基本特点及其空间应用需求，对其抗单粒子技术进行研究。　　首先，本文广泛研究了空间环境对FPGA的影响以及FPGA单粒子效应的机理和故障模式，并

学位

航天工程现场可编程门阵列芯片单粒子效应测试系统加固技术

基于软件复用技术的功能体研究与应用

首先简要介绍了软件工业化生产的方向和复用技术对它的重要性,并阐述了其困难性的根本原因.然后论述了哲学和计算机科学及面向功能体方法的联系,从管理学原理、脑科学和数据

学位

软件工程软件复用面向对象计算机辅助软件工程

基于音视特征的视频分析技术研究

该文首先从分析对象的角度对视频分析技术的研究现状进行了综合论述.并且通过对视频分析技术的现状分析,提出了该领域可能的发展趋势.该文用基于图像序列特征的视频分析的方

学位

视频分析音频信号分类场景分割事件流COM

基于WEB网站的人才市场管理系统的设计与实现

随着因特网技术的发展，越来越多的人们倾向于在网上搜索和发布信息。人才市场管理系统是以B/S(浏览器／服务器)体系结构作为基本架构，采用ADO实现对数据库的存取，以IIS 5.0作为Web

学位

Web动态服务器页面ASP数据库访问对象ADOODBC

用UML描述软件体系结构的研究

软件体系结构对于系统的分析和重用起着至关重要的作用.而要充分利用软件体系结构就必须它进行准确的、全面的、无二义性的描述. 为了克服以上的问题,更好的描述软件体系结构

学位

软件体系结构统一建模语言扩充机制多视图体系结构描述语言

基于CORBA的异构数据库集成技术研究

随着网络技术和数据库技术的发展，人们对网络中数据资源的共享越来越迫切，但这些数据库资源往往存在广泛的异构性。此外，硬件平台的异构、操作系统的异构及网络的异构使得异构问

学位

异构数据库CORBA三层体系结构中间件

MIS系统中集成实时监控系统与三层C/S结构的应用

本文分析了在管理信息系统中集成实时监控系统信息遇到的问题，如跨操作系统平台接收数据、处理网络故障和数据库的故障的自恢复功能、如何处理海量数据等，并针对这些问题结合实

学位

MIS实时监控数据库ORACLE海量数据3层C/S机构客户机/服务器

基于Petri网的并发面向对象多级建模

该文提出OMNets和UNINET是为了用多级抽象的方法全面刻画并发对象系统的行为.我们把对象系统模型抽象为4个层次,分别是：系统的行为,对象的行为,对象中方法之间的交互行为以及

学位

Petri网并发对象OMNetsUNINET继承异常UNITY

汉语自然语音识别中发音建模的研究

该文针对汉语,研究焦点为自然语音在纯声学层面上的发音建模问题,从相互作用且密切相关的识别基元集、发音词典和声学模型等角度出发,提出了如下的方法和策略.第一,汉语声韵

学位

发音建模广义声韵集精细建模词典加权策略参数共享

类别型数据的划分迁移聚类

其他学术论文