基于入侵杂草算法的数据挖掘聚类算法研究

来源 :兰州理工大学 | 被引量 : 9次 | 上传用户:tmac0000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息技术的迅猛发展,人们的生活沉浸在了数据和信息的海洋,人类社会已步入数字时代。人们需要丰富的数据和信息引导社会活动和方便生活,尤其在商业领域、企业生产过程和诸多工程领域等要以大量的数据信息为基础,获取商业利润的决策信息,实现工业生产的在线监控、辨识、诊断,以及完成控制策略的构思。因此,数据挖掘的概念应运而生,它作为一种能够有效地从海量数据信息中挖掘潜在的有用的价值信息的技术手段,得到了诸多科研人员关注和许多工程领域的应用。入侵杂草算法(IWO)是一种能够有效模仿野草繁殖、生长、竞争过程的仿生学优化算法。由于其鲁棒性好、寻优能力强、收敛速度快、结构简单、易于实现,在许多优化问题上优于其他智能优化算法,受到了学术界的广泛关注。聚类算法作为数据挖掘的一种有效手段,成为了数据挖掘领域的热门工具,模糊C均值聚类算法(FCM)是软划分的一种方法,对样本类属没有确定的描述,符合人类认识事物的规律,已被广泛应用到各种工程和科学领域,但仍存在一些不足。本文主要围绕FCM算法展开分析与研究,主要研究内容包括如下:1.针对FCM算法对初始聚类中心敏感,容易局部收敛的问题,提出了一种基于IWO的模糊聚类数据挖掘算法(IWO-FCM),该方法引入IWO算法寻找最优初始解,保证了对解空问的全面搜索,然后再进行聚类分析,有效克服了FCM算法的缺陷,试验通过与使用遗传算法、粒子群算法分别优化FCM算法的结果对比,验证了IWO-FCM算法比FCM算法、GFCM算法、PSO-FCM算法的聚类效果更好。2.基于入侵杂草算法的FCM算法(IWO-FCM)比FCM算法全局寻优能力强,聚类精度高,但对高维和复杂数据集测试时,存在收敛变慢,精度不高的问题,因此提出了一种改进的IWO-FCM算法。该算法利用混沌序列初始化IWO-FCM算法的杂草初始种群,提高初始解(种子)的质量,将差分进化算法的交叉、变异和部分选择操作应用在IWO-FCM算法的空间分布和选择过程中,保持杂草群多样性,增强算法全局寻优能力。在多个高维数据集上进行测试,仿真结果表明该算法比FCM算法和IWO-FCM收敛速度更快,寻优精度更高。3.针对实际化工过程数据具有高维、非线性等特征而难以进行聚类分析的问题,提出基于扩散映射的IWO-FCM算法。该算法先利用扩散映射提取高维数据的低维流形特征,整合数据的局部特征使原始数据的几何信息得以保留,然后用IWO-FCM算法对低维流形数据进行聚类分析。试验通过对TE过程多个故障数据集进行测试,与使用基于扩散映射的FCM算法的结果相比,本文所提算法具有较强的稳定性和鲁棒性,比基于扩散映射的FCM算法具有更强的寻优能力和更好敛效果,聚类效果明显改善,能够快速有效地识别故障特征,验证了其有效性和优越性。4.针对FCM对噪声点和离群数据较为敏感,可能性模糊聚类算法(PFCM)较好地克服了这一缺点,当带噪声的数据集极不均衡时,PFCM算法存在对初始聚类中心敏感,聚类效果不好等问题。本文提出了改进的核可能性模糊聚类算法(IKPFCM),该算法在核可能性模糊聚类(KPFCM)的基础上使用IWO算法寻找最优解作为KPFCM算法的初始聚类中心,提高算法的鲁棒性和寻优能力,同时引入样本方差简化目标函数的参数,进一步增强聚类算法的有效性,将改进后的算法用于数据聚类。从UCI数据集和人造数据集上的测试结果表明,该算法的抗噪声能力更强,聚类精度更高,收敛速度更快。
其他文献
自第一架双翼飞机“飞行者”完成人类历史上第一次驾机动力飞行之日起,人们对于天空的追逐就从没有停止过。随着科学技术的不断进步与快速发展,人们对飞行器的要求也不再仅仅局
国家“卫生事业发展十二五”规划明确提出的“3521工程”建设蓝图,是我国跨入新世纪十几年来医疗卫生信息化建设的一个重要举措,它要求建设一个标准化的互联互通平台,即符合
热力循环系统故障在发电机组设备故障中占有非常大的比例。目前,针对热力循环系统的故障预警系统在实际现场应用的实例较少,开展热力循环系统的故障预警研究具有非常现实的意
由于结构简单,操作方便等特点,指针式仪表被电力、化工及自动化等行业大量应用。但实际应用操作过程中,需要人工读取示数,而且某些特殊工作环境会引发读数误差,阻碍着工业信
对给定区域内运动目标的检测和跟踪,是现代检测、监控以及跟踪系统中一个不可回避的问题。对于单一目标的状态跟踪,处理流程一般包括测量数据获取、目标状态估计两个部分。而对
电网连锁故障是一种发生频率较低的事故,但事故所造成的后果会严重影响了人们的日常生活,同时对社会经济造成巨大损失。随着近几年世界发生了多起大面积停电事故,对于电网连锁故障的研究已经越来越受到学者们的重视。由开始通过一些电压、功率、负荷等一些电网的实际物理量参数建立模型到如今利用网络结构的复杂网络理论建立模型研究,研究者对电网连锁故障研究越来越深入,对防止电网连锁故障发生所导致的大面积停电事故有着重要
混杂系统是由连续变量动态系统和离散变量动态系统相互影响、相互作用而形成的的复杂的非线性动态系统。在实际的工业过程中,这种含有两类变量的混杂系统非常常见,仅仅采用传
目前,传统的管道检测方法因自身原理等因素导致其面临一些技术难题。生物学者通过模拟弱电鱼在水下通过主动发出电场并利用该电场实现对物体的定位和捕食的原理提出一种能在
无线传感器网络是一种信息获取和处理的综合学科,它由大规模能量、通信处理能力、计算能力等有限的无线传感器节点自组织而成,被广泛用于环境探测、灾难救助、军事、医疗以及工
直升机相比其他机种,最大的优点就是可以做空中悬停、低空域低速度和头部保持恒向的飞行,尤其是能于狭小受限地形垂直升降。这些特点使其具有广阔的用途及发展前景,无论是在对地