论文部分内容阅读
针对大规模样本聚类的时间复杂度过高和聚类结果对经验参数设置的依赖性过强的问题,提出一种基于密度网格可变参数的自扩展聚类算法.算法将数据空间分割成相同大小的网格单元,再将样本归一化后映射到相应的网格单元中,然后从指定密度较大的网格单元向周围扩展,直到其平均密度达到指定的下限或可扩展的聚类边界为止.聚类过程中,通过下限密度和均值密度限制聚类间的过度扩展,如果有效样本的比率低于阈值,则自适应调整扩展密度并重新聚类.仿真试验表明,本算法可以以较小的时间代价获得较高的聚类精度和有效样本率.