基于群智能优化的若干近邻传播聚类算法及其应用

来源 :吉林财经大学 | 被引量 : 2次 | 上传用户:mahw9866
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2007年,美国学者Frey在《Science》发表题为“Clustering by Passing Messages Between Data Points”的一篇文章,即近邻传播聚类算法(Affinity Propagation,AP),此算法一经提出,不断有学者对其进行研究。基于该算法的优势,越来越多的专家学者对其进行改进并应用到实际生活中。尽管如此,传统的AP算法仍然存在三个问题:(1)传统的AP算法的重要参数——偏向参数和阻尼系数,需要手动调节,使算法时间成本增加,也会导致算法准确度降低;(2)传统的AP算法在对凸集和结构清晰的超球形数据聚类时,可以得到合理的结果,但当处理结构复杂的大规模数据集时,则难以获得准确的聚类结果;(3)传统的AP算法采用欧式距离作为相似度,而欧式距离无法准确反映数据间的相似性;针对以上三点不足,本文提出了三种优化AP算法的方法,如何对以上三个问题进行优化,本文提出了三种优化AP的算法,分别从优化参数、设计相似度函数和处理大数据集聚类三个方面进行改进并详细介绍改进的思想及流程。1.针对难以设置近邻传播聚类算法的偏向参数这一问题,本文提出了一种新的算法—ABC-SAP聚类算法,即基于人工蜂群的半监督近邻传播聚类算法(Semi-supervised Affinity Propagation Based on Artificial Bee Colony,ABC-SAP)。该算法将人工蜂群算法和近邻传播算法相融合,利用半监督思想调整相似度矩阵,将引领蜂引入到算法迭代过程,因其寻优能力强,可以双向搜索偏向参数空间以取得最优值。通过UCI大数据集进行测试,ABC-SAP算法可以有效地调整偏向参数值,使其更加合理,进而使得聚类质量得到改进。2.鉴于近邻传播聚类算法对海量复杂的大数据集处理效果不理想,提出基于大规模数据集的近邻传播算法(Affinity Propagation Clustering Algorithm Based on Large Scale Data Set,LSDS-AP)。该算法在确定聚类中心距离时采用结构相似度计算,然后引入密度峰值聚类算法对所有聚类中心再次聚类,使其达到最佳聚类结果。3.AP算法在聚类过程中需要偏向参数以及阻尼系数作为聚类指引,提出一种新的算法—基于自适应步长的布谷鸟近邻传播算法(An Adaptive Step Size Cuckoo Search-based Affinity Propagation Clustering Algorithm,ASCS-AP)。基于布谷鸟算法寻优能力强的特点,本文将布谷鸟算法应用到AP算法中,用以找到最佳的偏向参数值和阻尼系数值。同时,在Silhouette值的指导下,输出近似全局最优解。在仿真实验中表明,本文提出的ABC-SAP算法可以有效提高传统AP算法的性能以及收敛效率。4.为拓展研究的应用领域,本文将ABC-SAP算法和ASCS-AP算法应用到对农村居民家庭平均每月支出数据的聚类中。经验证,新算法的聚类结果与真实的分类基本一致,说明新算法在实际应用中可以发挥价值,为国民经济分析提供了依据。
其他文献
背景女性性功能障碍(Female sexual dysfunction,FSD)是指女性个体在性反应周期中的一个或几个阶段发生障碍或出现与性交有关的疼痛,而不能参与或不能达到其所预期的性关系,造成心理痛苦;包括欲望、唤醒、性高潮和性疼痛障碍。良好的阴道润滑是性生活开始阶段的重要生理表现,其障碍将导致女性性交疼痛、性高潮障碍等后续FSD的一系列问题。然而目前无论是在科学实验还是在临床研究中,女性性医
高炉渣是高炉炼铁过程中产生的一种固体废弃物,主要结构是硅氧四面体[Si O_4]4-在聚合作用下通过互相连接而形成的网络状结构,对废水中的重金属离子有良好的吸附效果,吸附重金属离子的高炉渣还可作为水泥的掺合料使用,大大提高了这种工业废弃物的利用价值。本文研究高炉渣吸附不同重金属离子的性能与吸附机理,探究吸附重金属离子的高炉渣作为水泥掺合料时重金属离子的固化性能,为高炉渣的资源化利用提供理论技术支持
在我国互联网经济迅猛发展的前提下,网络餐饮服务业脱胎于传统的“纸质传单+电话订餐”模式,伴随着智能手机终端的普及、互联网红利的爆发,产业规模迅速扩大。有关机构经过调查发现,2019年国内餐饮外卖产值规模比2018年增长1844亿元,大约为6536亿元;全年外卖产业渗透率达14%,较2018年提升3个百分点;外卖消费者规模约4.6亿人,较2018年增长12.7%,在9亿网民中占比率为50.7%。外卖
超级电容器作为一种极具发展前景的储能器件,因其具有充放电速度快、循环寿命长、使用温度范围广、功率密度大、环境友好等优良特性一直备受关注。随着5G时代的到来和人们对新生代电子产品的追捧,促使各类电子产品迅猛发展。目前电子产品主要是朝着轻薄化、便携化、可穿戴化等方向发展,电子产品的发展自然离不开对储能器件性能要求的提高。因此,平衡储能器件体积大小和电化学性能之间的关系成为如今研究的重点。优异的电极材料
新疆散文作家李娟以自己独特的阿勒泰题材散文,吸引了许多读者和文学研究者的目光。她散文中蕴含阿勒泰叙事的丰富内涵。阿勒泰的自然地理和人文地理环境,不仅为她的散文创作提供了取之不尽的写作素材以及丰富的个人体验,更影响了她的价值理念,审美气质与写作风格,赋予了她写作的空间和灵魂。作为客观地理空间的阿勒泰,经过作家别样的审美,升华为李娟文学世界的精神家园,并形成了独特的“阿勒泰叙事系列”。在李娟的散文里,
第一部分25-羟基维生素D_3水平与非酒精性脂肪性肝病的相关性【背景】近年来,非酒精性脂肪性肝病(non-alcoholic fatty liver disease,NAFLD)的患病率迅速增长,已成为我国第一大慢性肝脏疾病。尽管早期NAFLD患者多无自觉症状或只感到轻微不适,但随着疾病的进展,NAFLD可增加肝纤维化、肝硬化和肝细胞癌的发生风险,并可加快高血压、2型糖尿病和代谢综合征的进展。目前
市场需求的快速变化对企业产品从设计、试制到上市的周期要求越来越短。拖拉机制造企业摸清用户需求,找准产品定位,并充分挖掘现有资源,有针对性地快速设计出质量可靠、成本
棉花作为新疆最重要的经济作物,是以自然纤维为主的天然材料,也是最重要的纺织原料之一。棉花叶片的叶绿素含量(SPAD值)、全氮含量、全磷含量以及全钾含量等生理生化指标能够准确地反映棉花的品质、生长状况和产量。通过数理统计方法对地面高光谱数据与棉花生理生化指标之间进行相关性分析,并建立两者之间的统计学模型,能够实现对棉花生长信息的估测,进而为农田管理提供依据。本研究以花铃期棉花为研究对象,设计农田试验
由于环境污染、能源紧缺等问题日益严重,研究新型制冷技术代替传统蒸汽循环制冷工艺成为广大制冷研究领域者们一直探索的热点。基于磁热效应(MCE)的磁制冷技术,具有绿色环保、
图像块匹配技术用来匹配两幅或多幅图像中相互间具有平移或旋转等变换的图像块。该技术是许多图像编辑和处理应用的基础,具有重要的实用价值和研究意义。本文提出了并行高效