论文部分内容阅读
大规模数据库中的海量数据多具有混合属性,即数值型数据与其他类型的数据混合于一体、数据量庞杂、不易区分.传统算法往往忽视多种属性间的关联性,算法复杂、聚类速度慢、效果差.对此提出一种基于划分聚类的混合大规模数据库中数值型数据聚类算法.首先为降低传统算法的高复杂度,要从大规模的数据库中合理抽取多个小数据集,小数据集中要包含数据库中全部的自然簇;依据相似度定义构建小数据集的相似度矩阵,并分别进行数值型数据及其他类型数据的相似度计算;最后对抽样聚类的结果进行整合、均值更新和划分,实现混合的大规模数据库中数值型数据