论文部分内容阅读
聚类以无监督学习方式将无标签数据分为不同类簇,是当前数据挖掘的重要手段之一。其中,网格聚类以网格单元为处理单位,聚类时间复杂度独立于数据点的数目,在大数据集聚类方面备受青睐。然而,随着数据量的增大和数据维度的增加,网格聚类会因非空网格数量急剧增加而致聚类效率降低;此外,由于现实中的数据往往存在类簇间的交叉重叠,传统网格聚类算法使用连通性进行聚类容易将多个交叉类簇错误地聚为同一类簇,致使聚类精度降低。基于密度的聚类方法将簇看作是连通的高密度区域数据点的集合,在核心点和核心位置筛选方面有明显优势。因此,如何根据密度的不同对空间中的数据点逻辑位置进行区分,克服网格数量增多及边界不确定带来的“网格灾难”问题,研究适用于类簇交叉大规模数据集的网格—密度融合聚类方法并探索其实际工业应用具有重要的研究价值。本文针对类簇交叉大规模数据的聚类需求,研究密度区分下面向类簇交叉大规模数据的网格聚类方法,并探讨理论研究成果在甲醇精馏过程中的应用。全文主要研究工作包括:(1)基于Zipf分布的网格密度峰值聚类算法网格密度峰值聚类在兼顾密度峰值聚类算法可识别任意形状类簇的基础上,通过数据集的网格化简化了整体计算量,但大规模数据集下非空网格的距离矩阵计算量大,时空复杂度高。为满足大规模数据聚类需求,结合以网格密度为变量的概率密度分布呈现出类Zipf分布的特点筛选稠密网格并自适应地确定潜在聚类中心,提出了一种基于Zipf分布的网格密度峰值聚类算法。实验验证了所提算法对大规模、类簇交叉数据的聚类具有明显优势。(2)共享邻居的动态类位图索引网格DBSCAN聚类算法基于集群森林的网格DBSCAN算法利用类位图索引实现了邻居网格的快速范围查询,在高维数据聚类上展现优势,但在类簇交叉的大数据集下其网格索引及合并过程冗余较大,且网格合并过程使用的低密度优先策略可能产生类簇数目聚类错误。针对此,本文在类位图索引基础上通过动态网格索引和高密度优先的网格合并策略,克服类簇交叉情况下邻居网格合并过程中易受密度参数影响导致聚类错误的问题,提出了一种共享邻居的动态类位图索引网格聚类算法,实现了类簇交叉高维大数据集的快速聚类。(3)基于Zipf分布的网格密度峰值聚类算法在甲醇精馏过程中的应用甲醇精馏过程中最优参数的确定影响甲醇精馏质量和企业生产成本。传统参数优化所采用的基于贪心策略的灵敏度分析,容易导致参数取值陷入局部最优。针对这一问题,结合课题理论研究成果,将基于Zipf分布的网格密度峰值聚类算法应用于甲醇精馏过程数据的聚类分析。根据聚类结果对不同类簇进行对比分析,挖掘影响甲醇精馏的关键因素,并为生产工艺的优化提供决策指导。