论文部分内容阅读
在许多实际场景中,由于数据获取困难、数据误读、数据丢失以及随机噪音等因素导致大量的数据缺失.针对传统的聚类算法无法直接处理不完备数据集的问题,提出了一种基于传统聚类算法的均值插补不完备数据的聚类方法,首先将不完备数据集划分为两个互不相交的子集,使用传统的聚类算法处理无缺失数据的数据对象获得初始聚类结果;然后使用各类中数据对象的属性均值填充不完备数据对象的缺失数据,观察各类中心值的变化确定最终的插补值.实验通过有效性指标评估该算法在UCI数据集上的聚类结果,可以验证算法的有效性.