【摘 要】
:
基于划分的方法是经典聚类方法之一,如何选择恰当的聚类个数和初始类中心是所有划分聚类方法初始化过程中必须面对的问题。尽管针对数值型属性或分类型属性单一数据类型数据
论文部分内容阅读
基于划分的方法是经典聚类方法之一,如何选择恰当的聚类个数和初始类中心是所有划分聚类方法初始化过程中必须面对的问题。尽管针对数值型属性或分类型属性单一数据类型数据的聚类个数和初始类中心的选择算法已经进行了广泛地研究,但在实际应用中,大部分数据是通过数值型属性和分类型属性共同描述的,也称为混合型数据。本文针对混合数据划分式聚类中如何确定聚类个数和选择初始类中心进行了研究,论文的主要工作有:(1)基于权重密度给出了一种混合型数据类与类之间的相异性度量,基于此设计了一个混合型数据的类个数确定算法,并对其时间复杂度进行了分析。通过在UCI真实数据集上进行实验分析,结果表明提出的算法是有效的。(2)基于对象密度和对象之间的距离,对传统最大最小距离算法进行了进一步扩充,提出了一种混合型数据的初始类中心选择算法,并将该方法应用于k-prototypes算法中,实验结果与随机初始化方法相比,提出的方法具有一定的优越性。本文对混合数据划分式聚类方法的初始化方法进行了研究,分别给出了类个数和初始类中心确定方法,为混合数据的聚类工作具有一定的参考价值。
其他文献
自从Bender及其合作者于1998年发现并不是所有量子系统的哈密顿量都是厄米的,众多学者对此产生了浓厚兴趣。厄米算符的本征值为实数,同时PT对称理论证明了非厄米系统的哈密顿
在各种雷达、电子设备等场合,单边辐射天线因其较高的增益和较好的电磁兼容性而在微波与光学领域均具有广泛的应用。长久以来,单边辐射的实现依赖于金属背板的反射,这不利于
S型锥形光纤是近年来出现的一种新型锥形微结构光纤,其本质上是一个结构非常紧凑的光纤马赫-增德尔干涉仪。光纤S锥对外界折射率和轴向应力具有非常高的灵敏度,并且可通过镀
中美贸易摩擦的美方逻辑是资本理性,可归纳为贸易问题上的失衡幻觉→理论认知上的重商主义→经济霸权上的危机意识。究其根源,经济利益敏感、经济理论偏执、经济霸权意识均是
方面级情感分析是情感分析方向的热点研究问题之一,近年来受到了许多研究者的广泛关注,与文档级情感分析任务相比,它具有更细粒度的情感评价对象。方面级情感分析包含方面项
碳酸盐岩型油气田在世界全部油气田之中具有非常重要的地位,来自于碳酸盐岩储集层的石油和天然气占全世界油气总产量的一半甚至于一半以上。本文以伊拉克W油田白垩系的多孔隙
ABCA四嵌段共聚物为结构新颖聚合物软材料的分子设计提供了一种新途径。深入认识ABCA四嵌段共聚物的组装行为是实现分子设计的前提。本文采用自洽场理论系统研究了线型ABCA四
足球比赛中,运动员需要时刻关注球的去向、队友和对手的位置,并通过与队友的密切配合提高进攻和防守的效率,获得球场上的主动权。在这种复杂且快速变化的运动场景中同时追踪
针对基于生物电阻抗对人体腹部内脏(腹内)脂肪面积(VFA)的预测,本文采用基于半监督学习的ABC-SVR预测模型对人体腹内脂肪面积进行预测,以克服训练样本有限与标准值相关性不够
乳化器是乳化炸药生产线上的重要设备,由于其恶劣的工作环境、较大的工作强度,导致其容易出现故障。因此,及时有效的区分乳化器的故障类型,具有重要意义。本文以乳化器为研究