密度区分下面向类簇交叉大规模数据的网格聚类方法研究及应用

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:mm109700
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类以无监督学习方式将无标签数据分为不同类簇,是当前数据挖掘的重要手段之一。其中,网格聚类以网格单元为处理单位,聚类时间复杂度独立于数据点的数目,在大数据集聚类方面备受青睐。然而,随着数据量的增大和数据维度的增加,网格聚类会因非空网格数量急剧增加而致聚类效率降低;此外,由于现实中的数据往往存在类簇间的交叉重叠,传统网格聚类算法使用连通性进行聚类容易将多个交叉类簇错误地聚为同一类簇,致使聚类精度降低。基于密度的聚类方法将簇看作是连通的高密度区域数据点的集合,在核心点和核心位置筛选方面有明显优势。因此,如何根据密度的不同对空间中的数据点逻辑位置进行区分,克服网格数量增多及边界不确定带来的“网格灾难”问题,研究适用于类簇交叉大规模数据集的网格—密度融合聚类方法并探索其实际工业应用具有重要的研究价值。本文针对类簇交叉大规模数据的聚类需求,研究密度区分下面向类簇交叉大规模数据的网格聚类方法,并探讨理论研究成果在甲醇精馏过程中的应用。全文主要研究工作包括:(1)基于Zipf分布的网格密度峰值聚类算法网格密度峰值聚类在兼顾密度峰值聚类算法可识别任意形状类簇的基础上,通过数据集的网格化简化了整体计算量,但大规模数据集下非空网格的距离矩阵计算量大,时空复杂度高。为满足大规模数据聚类需求,结合以网格密度为变量的概率密度分布呈现出类Zipf分布的特点筛选稠密网格并自适应地确定潜在聚类中心,提出了一种基于Zipf分布的网格密度峰值聚类算法。实验验证了所提算法对大规模、类簇交叉数据的聚类具有明显优势。(2)共享邻居的动态类位图索引网格DBSCAN聚类算法基于集群森林的网格DBSCAN算法利用类位图索引实现了邻居网格的快速范围查询,在高维数据聚类上展现优势,但在类簇交叉的大数据集下其网格索引及合并过程冗余较大,且网格合并过程使用的低密度优先策略可能产生类簇数目聚类错误。针对此,本文在类位图索引基础上通过动态网格索引和高密度优先的网格合并策略,克服类簇交叉情况下邻居网格合并过程中易受密度参数影响导致聚类错误的问题,提出了一种共享邻居的动态类位图索引网格聚类算法,实现了类簇交叉高维大数据集的快速聚类。(3)基于Zipf分布的网格密度峰值聚类算法在甲醇精馏过程中的应用甲醇精馏过程中最优参数的确定影响甲醇精馏质量和企业生产成本。传统参数优化所采用的基于贪心策略的灵敏度分析,容易导致参数取值陷入局部最优。针对这一问题,结合课题理论研究成果,将基于Zipf分布的网格密度峰值聚类算法应用于甲醇精馏过程数据的聚类分析。根据聚类结果对不同类簇进行对比分析,挖掘影响甲醇精馏的关键因素,并为生产工艺的优化提供决策指导。
其他文献
为防范化解地方政府隐性债务风险,维护金融稳定和社会安定,深入研究地方政府债务的必要性凸显。经由企业融资约束这一桥梁,地方政府举债行为存在着对企业全要素生产率的间接影响,从而关系中国经济高质量发展的大局。本文通过构建数理模型与计量模型,专注于研究中国地方政府债务影响企业全要素生产率的机制与效应。在数理模型方面,本文基于一般均衡理论,设计了适用于当前研究的一般均衡模型。该模型基于中国现实数据校准参数,
学位
现阶段中国经济正处于从高速增长向高质量增长转型的关键时期,如何成功实现经济转型已成为目前中国经济增长的核心议题。中国所面临的挑战包括产业结构的失衡、资源的匮乏以及环境的恶化等问题,因此必须紧急采取措施来提高经济增长的质量和水平。在调节经济运行方面,政府一直扮演着至关重要的角色,通过制定有针对性的政策来引导和完善市场机制,协调市场和政府的作用,从而推动中国经济持续健康发展。近年来政府出台了一系列扶持
学位
地方政府财政能力是政府能力建设的重要组成部分,对地区经济发展起到了强大的引领作用。自1994年中国分税制改革实施以来,各层级政府呈现出“财权上收、事权下放”的形态,在一定程度上影响其财政能力,进而影响了地方政府经济调控能力。自由贸易试验区政策是党中央在面对各种挑战时积极寻求的政策突破,2013-2020年实施的八年间,很快便形成了“1+3+7+1+6+3”的全方位发展布局。自贸区建设主要实施的促进
学位
叶片的脉络模式是植物本身特有的生理特征之一。不同层级的叶脉在植物的生长发育过程中所担任的职能不同。通过对叶脉进行分割,我们可以将提取到的叶脉模型进一步用于植物品种识别、植物叶片定量化表型描述、植物品种分类和植物基因学等方面的研究。因此,叶脉分割技术在其中发挥着至关重要的作用。当下主流的叶脉分割算法主要是利用传统的手工提取特征算法来分割叶脉。这些算法自动化程度低、识别效果粗糙并且泛化性不高。此外,目
学位
学位
心血管疾病的患病率逐年增加,对人类健康造成了极大威胁。心律失常的准确识别对诊治心血管疾病具有重大意义,利用计算机技术实现心电信号的自动识别主要分为预处理、波形检测和分类识别三个步骤。在实际应用中,由于不同程度的噪声干扰、特征波的错误定位和不充分的特征提取等原因,导致心律失常的分类效果并不理想。本研究围绕上述三个步骤分别做以下三点改进:(1)传统的去噪方法容易造成高频信号中有用信息的丢失,且对含有高
学位
学位
学位
学位
学位