属性耦合的类中心选择算法设计与实现

来源 :山西大学 | 被引量 : 1次 | 上传用户:qncy1230s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类型数据作为生活中大量存在的一种数据形式,其特点是属性值作为一种状态表示,不具有数值型数据的几何特征,属性值不能够进行数值运算,因此也就不能将适用于数值型数据的聚类算法直接应用于分类型数据。在聚类算法中,对象间相异度由距离函数来决定,相异度度量或者距离度量是聚类算法的基础,对算法的聚类效果有着巨大的影响。因此,如何合理准确地刻画两个分类型数据对象的相异度或相似度显得极为重要。当前许多学者对分类型数据的距离度量从不同的角度进行了研究。其次,基于划分的聚类算法性能优劣取决于初始聚类中心的选择。目前,常见的基于划分的聚类算法通常使用随机选择的样本作为初始聚类中心,可能导致聚类过程趋于局部最优结果而非全局最优聚类中心。许多学者对此问题进行了一定的研究。针对以上两个课题,本文对分类型数据的距离度量学习和初始类中心选择进行了研究,并与现有的各种算法进行了对比和分析。本文的主要贡献有:(1)提出了基于属性耦合的带权距离度量。该距离度量包括带权重的属性内耦合距离和带权重的属性间距离两部分。利用属性间依赖程度计算得到属性间耦合程度权重,将属性间耦合程度考虑在内,从而提高对象间距离度量的精确度。利用属性权重来衡量属性在距离度量中的贡献度,提高聚类结果的精度。(2)基于属性耦合的思想,进一步改进了利用密度和距离选择初始类中心的方法。通过引入属性耦合思想计算每一个对象的密度,利用聚类中心的特点,选择初始化中心点,从而提高基于划分聚类的效率和精度。本文的研究成果进一步丰富了分类型数据距离度量的研究,在一定程度上为分类型数据的聚类提供了新的方法,相信此类算法的不断研究可以解决更多的实际问题。
其他文献
成簇的规律间隔的短回文重复序列(Clustered regularly interspaced short palindromic repeats)/CRISPR 相关蛋白 9(CRISPR-associated protein 9,Cas9)系统作为第三代基因
目的:探讨长链非编码 RNA(long non-coding RNA,lncRNA)HOXD-AS2在胃癌中的表达情况,以及其在胃癌发生发展过程中所扮演的角色,对胃癌细胞生物学行为的影响和具体的调控机制。方法:(1)根据前期芯片结果,筛选出芯片中表达差异较大的HOXD-AS2,再通过实时荧光定量PCR(RT-qPCR)在79例胃癌组织和其对应的癌旁组织、胃癌细胞系及正常胃粘膜细胞中验证HOXD-A
伴随着虚拟现实技术的发展,各行各业都开始了对虚拟现实技术及其领域的探索,虚拟现实技术以一种新的体验方式打破了旧的呈现内容的方式。特别是在产品广告营销领域和游戏领域
以SiC、GaN等第三代半导体材料为基础的结型日盲紫外探测器件具有高量子效率,高响应速度以及高紫外可见比等优势,在军事及民用领域具有广泛的应用前景。而雪崩型紫外探测器应
随着经济的发展与科学技术的进步,轨道交通在生活中日益重要,而轨道的运行状态在保障列车行车安全中至关重要,如何高效、便捷的检测轨道状态成为铁路系统发展的重点,在线动态
复杂网络是描述和分析复杂系统的重要方法,广泛应用于不同的科学领域,例如,社会学、生物科学和计算机科学等,已经成为复杂性科学领域中重要的研究内容。近年来,几乎所有关于
随着工业智能化的到来,自动化生产越来越迫在眉睫,越来越多的企业开始在生产中使用业务流程管理系统。随着业务流程管理系统的运行,累积了越来越多的业务流程日志等数据,如何
近年来,国内外经济格局都发生着巨大的变化,与之相伴随的必然是制度的变迁,从新制度经济学角度来看,转型经济往往使企业面临着不确定的制度环境、不完善的正式市场机制,从而
由于光线在水下环境中会受到水体吸收与散射的影响,所以水下环境中获得的图片通常存在颜色失真,对比度低等严重退化的现象,而恢复水下图像的颜色以及增加水下图像的对比度对
随着市场竞争的加剧,企业为了提升竞争力,开始专注于自己的核心业务,并逐渐开始将物流业务外包给专业物流公司。第四方物流(Fourth Party Logistics,4PL)作为供应链的集成商,