论文部分内容阅读
聚类分析可以自动发现数据集中隐含的簇类,是数据挖掘中非常富有挑战的研究领域。随着信息科学技术的快速发展,各行各业都积累了大量高维复杂数据,受维数灾难和稀疏性影响,基于传统距离度.量的聚类算法在处理高维数据时性能和效率下降甚至失效,所以研究高维数据聚类分析方法逐渐成为提高聚类有效性、拓宽聚类分析应用场景的重要方向。当前,子空间聚类由于其具备的在高维数据的不同子空间中寻找有效簇类的能力成为高维数据聚类分析的研究热点。子空间聚类分为硬子空间聚类和软子空间聚类两种,不同于前者旨在找到簇类所在的精确子空间,后者可以通过分配维度权重确定簇类所在的软子空间和每个维度对构成簇类的贡献大小。大部分软子空间聚类基于划分式聚类分析算法并引入计算特征权重的步骤,寻找目标函数最优解。当前软子空间聚类存在着聚类结果对初始中心点选择十分敏感、目标函数设计不够完备且参数难以确定的问题,而且可处理大数据的子空间算法也十分缺乏。本文从子空间聚类所面临的问题和挑战出发,首先通过提出一种新的初始中心点选择算法,为高维划分式聚类算法选择数目合适、分布良好的高密度数据对象作为初始中心点,实验证明,算法对数据集的维数、规模和簇类变化等不敏感,相比其他算法能够有效提高高维划分式聚类算法鲁棒性和聚类质量。接着,本文通过改进目标函数提出一种新的软子空间聚类分析算法,综合考虑类内紧凑度、类间分离度和投影子空间质量并实现算法的参数自适应调整,实验证明,该算法可以实现软子空间算法聚类有效性提升,有效适应各类数据集且聚类性能稳定。最后,本文基于大数据时代背景,基于MapReduce计算框架实现分布式并行化子空间算法,大幅提高子空间算法对数据集大小和维数的可扩展性,使其能够应用于泛实际大数据挖掘场景当中。