论文部分内容阅读
针对海量数据分析时需要消耗大量的计算时间和空间资源问题,引入并改进基于可变网格划分的密度偏差抽样技术,创新在于改进网格区间的合并.算法对原始数据集进行抽样,从而得到能较好反应原始数据集分布特征的样本数据集,实现对原始数据集的约简.将KM算法用于简约后的数据,以测试算法的效果.实验结果表明,该算法有效.