基于多子类的不平衡数据聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:richard_kai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法作为一种无监督学习方法,广泛应用于医学影像、图像分割、目标检测、和网络安全等领域。近年来,随着数据信息愈加复杂、多样,类的不平衡问题始终是学者们研究的热点之一。传统的聚类算法一般适用于普通数据集,在类大小差别较大的不平衡数据集上的聚类具有难以确定最终聚类数、不平衡比例未知等难点。多子类思想,是一种将不平衡数据集分成若干相似大小的子类,之后对相似度较高的子类进行合并得到最终聚类结果的过程。这种思想能将大类和小类进行统一处理,可以极大程度上减轻不平衡特性的影响。基于此,本文设计了相应的不平衡数据聚类算法,在一定程度上克服了聚类算法在不平衡数据集上的局限性。具体的研究内容如下:(1)密度峰值聚类算法凭借其易于理解、快速高效的特点被广泛应用,但依然存在参数敏感、需要人工干预和“多米诺效应”(一个错误产生的连锁反应)等缺点。综合k近邻与密度峰值聚类的优势,提出了一种自适应的多子类不平衡数据聚类算法,该算法由子类划分和子类合并两阶段组成。在子类划分阶段,设计了一种子类划分方法。首先,将自动确定邻域k值的方法应用于k近邻中,并依此计算各样本点的局部密度、向上距离(与局部密度更大样本点的最远距离)。整个过程中无需任何参数,提高了算法的自适应能力。然后,设计了一种选择子类中心的方法,从数据集中选择部分样本作为子类的中心点,并将非中心点归于最近的中心点,克服了密度峰值聚类需要人工确定类中心的缺点。在子类合并阶段,设计了一个子类合并方法。首先,依据属于同一类的两子类交界处平均样本点距离较近的特点,判断各子类之间是否需要合并,定义并构建子类之间的可达性矩阵。然后,对可达性矩阵采用深度优先遍历的方法合并子类,进而获得最终聚类结果。分析实验结果可知,算法不仅在评价指标上有好的表现,而且还具有识别形状不规则的数据集、适用于具有不平衡特征的数据集和自动确定聚类数量等优点。(2)聚类中,竞争学习方法是一种通过某种方法将类中心区分为获胜者、失败者,之后分别对获胜者、失败者进行位置更新直至趋于稳定的过程。采用这种方法的算法一般具有自适应能力,但也存在一些问题,如“死单元问题”(某些样本点永远无法获胜)、“均匀效应”(各类大小相似)等。为了解决上述问题并将其应用于不平衡数据聚类中,提出了一种基于竞争学习的多子类不平衡数据聚类算法。首先,设计了一种选择模糊点的方法,从数据集中剔除噪声点与边缘点,避免了模糊点对聚类效果的影响。然后,在每一次迭代中改进竞争学习方法,设计了一种新的获胜者、失败者选择和更新策略,使得处于动态更新的类中心更加均匀稳定。其次,当子类中心新旧位置的最大距离满足一定条件时,设计了一种选择新增子类中心的方法,使子类更能反映数据集的样本分布。最后,在迭代结束时将非中心点(不含模糊点)归于最近的子类中心形成子类,构建可达性矩阵采用深度优先遍历的方法对子类进行合并,并将模糊点归于最近的类,得到最终聚类结果。将所提算法与近几年的聚类方法进行了实验比对,证明了算法不仅在各项评价指标上优于其他算法,还具有识别形状不规则的数据集、适用于有不平衡特征的数据集、划分的子类更均匀和对噪声点不敏感等优点。
其他文献
随着航空技术的高速发展,现代飞机对机载视频显示及监控系统提出了越来越高的要求。对于教练机、新型试验机、大型客机、运输机等特殊种类的飞机,飞机上的观察员需要通过多个外部摄像头实时监控机体外部的情况,并通过机载座舱内部的显示屏综合观察、分析多路摄像头输入的视频信息,掌握飞机的机体状态。因此,飞机上迫切需要具有能够接收和处理多路高清晰度视频信号的系统。但目前的机载视频设备大都是只能实现对多路视频数据的采
学位
现代通信系统对模数转换器的采样率和带宽的要求越来越高,尤其是移动通信和雷达等系统要求模数转换器能够在高速转换的同时保持低功耗和高有效精度。所以具有优异能效比的高速高精度ADC成为了混合信号集成电路领域的研究热点。近年来,通过交替采样实现采样率倍增的时域交织技术被广泛用于实现高速高精度ADC。但是时域交织ADC中必要的输入缓冲器、时钟电路等限制了其能效比,同时通道间增益、时钟和带宽的失配也限制了其性
学位
随着信息化时代的到来,生活中的各行各业都涉及到海量数据的处理。大数据的高效处理离不开异构分布式系统的支持,但无论依赖于何种分布式计算平台,任务调度模型和算法都是提高大数据处理效率的核心和瓶颈。可以说,任务调度策略的优劣直接决定了平台的资源利用率和大数据的处理效率。大数据任务可以归为三类:可分任务、不可分任务和工作流,其中,工作流由于其子任务之间具有数据依赖关系且子任务的执行顺序受到约束,已有研究表
学位
永磁同步电机(Permanent Magnet Synchronous Machine,PMSM)具有转矩大、功率密度大和高效节能等优势,被广泛的应用到电动车、变频空调、变频洗衣机、扫地机器人等各个领域。永磁同步电机控制系统的设计是目前学术界和工业界研究的热点问题,常见的控制方式有恒压频比控制、磁场定向控制(Field Oriented Control,FOC)和直接转矩控制。其中FOC系统具有功
学位
作为第三代半导体材料的代表,碳化硅(Si C)由于具有禁带宽度大、击穿电场高、热导率高等特点,被广泛应用于高功率电子器件领域。而结势垒肖特基(Junction Barrier Schottky,JBS)器件拥有较低的开启电压,更快的恢复时间,更少的开关损耗,较低漏电电流等优点,具有明显优势,已经成为当前功率器件研究热点之一。不断提高的器件参数也对器件的掺杂等关键工艺提出了更高的要求。本文在此背景下
学位
现场总线技术广泛应用于工业自动化领域,是智能设备之间的数据通讯网络,增强了底层设备与控制管理层之间的联系。控制器局域网(CAN)就属于数据现场总线范畴。经过多年的发展,现场总线已经较为成熟,为了朝速率更快成本更低的方向发展,现场总线正在逐步向工业以太网转变。传统现场总线向工业以太网转变时,为了最大化保留原设备,降低更新换代的成本,需要在工业以太网芯片中搭载现场总线接口。目前市场中有大量的CAN总线
学位
得益于科学技术的不断进步以及物理算力的逐步提高,神经网络作为当下人工智能领域的重要一环,已经被越来越多地应用于金融、交通、医疗、消费等各行各业中。但是,目前用于评估神经网络质量的方法依然是基于训练集—测试集的传统软件测试方法,无法保证神经网络的安全性甚至是正确性。再加上对抗攻击技术近些年不断地发展,使得对抗样本可以在只产生微小扰动的情况下肆意更改神经网络的输出,这也给人工智能领域覆上了一层阴霾。因
学位
近年来,深度学习技术在多个研究领域大放异彩,基于卷积神经网络模型的创新成果与日俱增。为解决医疗资源紧缺和创建更好的医疗环境,全球多个国家出台相关政策,鼓励发展医疗人工智能行业,不断推进新一代计算机技术在医疗行业的应用。其中,利用深度学习技术的辅助诊断算法一直是数字医疗研究的热点,它能帮助医生诊断分析大量医疗数据,减少阅片误诊率和漏诊率。当前,一些深度学习算法模型在图像的检测效率和精度上相比于专业医
学位
三维装箱问题属于典型的组合优化问题,在物流装载、仓储分配等问题中有广泛的应用场景。特别是在我国物流行业高速发展的今天,装箱效率是物流企业不可回避的优化方向。在一定时间内计算出合理的装箱方案能帮助企业降低物流成本,减少车辆与人员的浪费现象,如果再配合使用可视化软件或自动化装箱设备将大幅度提高装箱效率,从而增强企业竞争力。因此研究三维装箱问题不仅有极大的理论价值,也有十分重要的经济价值。通过文献调研,
学位
可分任务的多趟调度已成为任务调度领域研究的热点和难点问题。多趟调度中不合理的任务分配不仅可能降低任务的完成效率、降低平台的资源利用率,甚至可能引发处理机的时间冲突(即任务在时间上重叠分配),导致处理机不能如约按时完成任务计算。鉴于此,本文提出了一种合理、高效且无冲突的多趟调度模型及算法,并将该理论成功应用于求解雾计算平台下的任务调度问题。本文的主要研究成果包括:1.研究了无冲突的多趟调度模型及算法
学位