基于成员选择的聚类集成算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:fzyfmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中一种重要的无监督学习方法。随着无监督学习的发展,大量的聚类算法被提出,但没有一种聚类算法可以适用于所有类型的数据集,不同算法各有优缺点。聚类集成算法是利用一种共识函数将多个聚类成员结果进行集成,使集成后的结果优于单个聚类算法得到的结果。但传统聚类集成算法也存在一些问题:随着成员数量的增加,即出现一些冗余的聚类成员,不但增加了集成复杂度,而且干扰了最终结果的准确性;大多数聚类集成算法同等对待各聚类成员,认为质量各异的聚类成员对最终结果的贡献是相同的。针对存在的问题,本文对聚类成员选择算法和共识函数设计两方面进行了研究,具体工作如下:(1)为充分考虑各聚类成员的质量和差异性对结果的影响,本文借鉴了聚类分析的基本思想,提出了一种新型的聚类成员选择算法。该算法将生成的若干个聚类成员视为一个新数据集,每个聚类成员的多差异性指标作为样本的特征值,然后利用K-means算法对新数据集进行聚类,接着利用联合质量评价函数,计算并挑选出各簇中质量最高的聚类成员,组成所需的成员子集,成员子集中的聚类成员同时满足差异性大和质量高的要求。最后,在UCI数据集上进行实验,实验结果表明本文算法在选取20%-40%的聚类成员参与集成就有着优异的表现。(2)为充分考虑各聚类成员在集成过程中所占的比重,区别对待各聚类成员,本文在D-S(Dempster-shafter)证据理论的基础上,提出了一种新型的共识函数。该算法首先结合所有聚类成员结果构建COA(Co-association)矩阵,并通过阈值设定找到各个样本的近邻样本,然后利用标签重排法统一所有聚类成员标签,接着利用联合质量评价函数为每个聚类成员赋予一定的可信度,在此基础上构造证据理论所需的mass函数,该函数刻画了各聚类成员在集成过程中所占的比重和近邻样本的分布信息,可信度越高的聚类成员在集成过程中所占的比重就越大,从而削弱了低质量聚类成员对结果的影响。最后,在UCI数据集上进行实验,并与多种算法比较,验证了本文算法的有效性。
其他文献
金线莲是我国民间特有的食药兼用型名贵中药材,具有除湿祛风,固血保肝的功效。目前市场上的金线莲种源混杂,品质参差不齐,且存在以假乱真、掺假售假等现象。近红外光谱分析技术有着高效、简单和绿色等优点,在其它中药材的品质检测上都得到较好的应用。本研究将不同品系的烘干金线莲及其伪品血叶兰、斑叶兰作为主要研究对象,利用近红外光谱分析技术,对金线莲的真伪、品系及黄酮类成分含量展开研究,并在此基础上构建定性或定量
学位
图像是当今社会人类获取信息的重要途径,而图像复原技术是图像处理领域重要的组成部分。图像去模糊技术作为图像复原技术中的核心技术之一,针对解决因图像模糊问题造成的图像质量退化现象,一直被广泛研究。图像去模糊问题属于不适定问题,处理的难度较大。由于图像模糊受场景深度,拍摄画面中物体运动等因素影响,运动模糊是非均匀的。针对解决非均匀图像模糊问题,在本文中,提出一种改进现有去模糊网络的方法,利用像素级模糊程
学位
苹果是我国的第一大水果,栽培面积和产量均居世界首位。调查显示,我国苹果面积、产量占世界的50%以上,均居世界首位。苹果内在含有多种高营养价值的物质,其中,苹果内含有的黄酮类化合物对人体健康发挥着举足轻重的作用。目前,对于苹果内黄酮类化合物的检测手段主要通过化学有损检测的方法进行,该方法不仅成本高,还因为繁琐的检测流程需要投入大量的人力物力。因此,需要一种能够快速无损且成本较低的检测方法,以便携式、
学位
卒中病发是造成人类死亡的主要疾病之一,并且患者在接受治疗后仍会存在严重的后遗症。目前传统的诊断方法依赖于医学影像信息,并且需要具有熟练技能的医生来对患者的状况进行诊断确认。同时,医学影像成像本身耗时久,医生和患者之间难以达到信息的有效沟通。机器学习等前沿技术能够在降低人为干预的情况下以医学影像为主要依据来自主判断患者卒中情况,因此可以通过引入计算机辅助系统帮助医生提升卒中诊断效率。本文在心电图信号
学位
三维视觉技术是计算机视觉领域中的一个重要方向,立体对象识别和检索任务是三维视觉领域中的一个重要的研究领域,被广泛的应用于自动驾驶,虚拟现实/增强现实,游戏,产品设计等应用领域。如何从立体对象数据中获取高质量的立体对象特征表示在识别和检索中具有重要的作用。对于立体对象的多视图数据,视图之间存在着一定相似性或差异性的关系,如何合理的利用视图的关系进行合理的建模值得被进一步的研究。当前的研究工作大多关注
学位
储能是以可再生能源为主体的新型配电系统重要元件,是实现我国“2030碳达峰、2060碳中和”双碳目标、能源转型、低碳可持续发展的重要途径。储能具有电源和负荷双重特性,可提供削峰填谷、平滑间歇式电源波动性、提高清洁能源消纳、调峰调频、电压稳定等多重服务。近年来,储能对提高新型电力系统供电质量和可靠性也越来越受到国内外学者的关注,但是储能对供电可靠性的贡献与其运行策略及荷电状态(SOC)分布密切相关,
学位
气密性是换热器、制冷装置和压力容器等密闭设备的关键性能指标。密闭设备在使用过程中一旦发生泄漏,轻则使设备性能下降,重则导致安全事故。因此,密闭设备气密性检测技术的研究与应用尤为重要。现有气密性检测方法众多,有些甚至有较高的检测精度,但是大多只能判断密闭设备是否泄漏,不能实现漏点精确定位。皂泡法、压力水检法是目前最常用的密闭设备漏点定位方法,但漏点识别与定位高度依赖于人工目视技能,容易导致漏检或误检
学位
脑梗目前已经成为全球第五大死亡因素,在中国每年有一百多万人死于脑梗。脑梗核磁共振成像(Magnetic Resonance Imaging,MRI)的自动分割对于脑梗的诊断具有重要意义。近年来,基于深度学习的图像处理算法发展迅速,在医学图像处理领域展现出巨大的潜力。本文所研究的脑梗图像分割任务主要面临以下两大难点:首先,全监督学习依赖大量的标注数据,需要由相应的专家对病灶区域进行手工标注,将耗费大
学位
随着船舶技术的发展,海洋已成为人类生存活动所需的重要场所。无人船在海面航行具有体积小、速度快、自主能力强和灵活程度高等特点,已成为海面任务执行的关键手段,在海面任务中能够减少经济损失和人员伤亡。但随着任务需求的逐渐增加,单艘无人船的任务执行能力受限,多无人船协同能够提高任务执行效率,在理论研究和实际应用中具有重要价值。任务规划作为多无人船协同的关键技术,对提升无人船的自主能力起到至关重要的作用。多
学位
切换系统作为一类特殊的混合动态系统,常常用来描述很多机理复杂的系统模型,其相关研究也愈发深入且广泛。而现代控制领域引入网络传输技术的同时不可避免地诱导出很多问题,如网络攻击、能量受限以及带宽有限等。如此,引入网络传输技术无疑给本身就具有混杂性的切换系统分析与设计提升了难度等级。此外,动态事件触发机制在减少能量消耗,降低数据更新频率等方面有着一定优势,但是目前对其的研究还处于初步阶段。因此,针对网络
学位