【摘 要】
:
聚类作为一种重要的数据挖掘方法,能够发现未知数据的潜在模式,进一步指导实践.传统聚类算法受参数或数据类型影响,往往表现不佳.集成聚类通过学习多个模型来解决一个问题,从而获得一个准确度和鲁棒性都更强的结果,在一定程度上缓解了单个聚类算法的困境,拓宽了聚类算法的应用场景.目前已经形成了很多集成聚类算法,但是仍存在三个问题:一是侧重于集成策略的设计,忽视了生成阶段基聚类质量对最终聚类结果有着直接的影响;
论文部分内容阅读
聚类作为一种重要的数据挖掘方法,能够发现未知数据的潜在模式,进一步指导实践.传统聚类算法受参数或数据类型影响,往往表现不佳.集成聚类通过学习多个模型来解决一个问题,从而获得一个准确度和鲁棒性都更强的结果,在一定程度上缓解了单个聚类算法的困境,拓宽了聚类算法的应用场景.目前已经形成了很多集成聚类算法,但是仍存在三个问题:一是侧重于集成策略的设计,忽视了生成阶段基聚类质量对最终聚类结果有着直接的影响;二是平等地对待参与集成的每一个基聚类或簇;三是忽视了数据内部可能固有的一些联系.本文提出一种基于密度峰值和微簇的集成聚类算法.首先应用改进的密度峰值聚类算法生成基聚类成员,以处理结构复杂的数据集.然后,引入微簇概念提取代表信息以减少算法的复杂度,并结合信息熵知识估计每个簇对集成的重要性来构建代表点级别上的共协矩阵.最后应用一致函数来划分共协矩阵,得到对代表点的划分结果,其余点跟随微簇返回相应的簇,得到最终聚类结果.为了验证该算法的有效性,在三个合成数据集和五个UCI数据集上与五个集成聚类算法进行了对比实验,结果表明本文算法能有效提升聚类性能.现有的集成聚类算法通常默认使用K-means作为基聚类生成器,这虽能确保聚类成员的多样性,但却忽视了差的基聚类可能会对最终聚类结果造成极大干扰.有研究指出,在保证基聚类质量的前提下尽可能增加其多样性有利于得到一个更好的聚类结果.根据这个观点,提出一种基于聚类质量的两阶段集成算法.首先采用K-means生成基聚类成员,通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成.然后在集成阶段利用信息熵知识来构建基聚类加权的共协矩阵,采用层次聚类算法得到最终聚类结果.将所提算法在十个真实数据集上与七个先进的集成聚类算法进行对比实验,结果表明该算法在有效提升聚类结果的准确度的同时,能保持较好的鲁棒性.
其他文献
确定复杂网络中节点的中心性是网络科学中的一个热点研究方向。许多现实的复杂系统都可以经过适当的建模成为复杂网络进而对之研究分析。在复杂网络中不同节点的重要性存在着相当大的差异,往往存在着一少部分的节点在影响或控制整个网络,所以评估网络中节点的重要性并检测出网络中的关键节点具有重要的研究意义。节点的中心性是指通过分析节点在网络中的作用大小而设计出的一种衡量指标,以此来区分网络中的节点重要性程度,对如何
具有高价值的敏感数据如何安全存储和灵活共享成为近年来的研究热点。然而,电子化数据共享系统在方便人们的同时,也面临着一些亟需解决的安全问题。例如,敏感数据在共享过程中存在的访问控制、数据机密安全、有效监管及隐私泄漏等问题。此外,当前集中式的云存储共享有着自身局限性。针对上述问题,本文提出了两个新的数据共享方案,主要工作内容如下:1.提出了一种基于属性加密和代理重加密技术的区块链数据共享方案。首先,将
在电催化还原CO2生成CO的金属材料中,Zn价格低廉地壳含量丰富,并易于吸附COOH*中间态,有利于CO*吸附质的脱附,因此作为贵金属的替代品具有很大优势。但体相Zn在催化还原CO2的过程中存在速度缓慢与对CO选择性较低的问题,对Zn进行形貌处理可以有效提升电催化还原CO2性能。本论文首先采用水热法制备了ZnO晶体,然后通过电化学还原法制备了Zn电极,并研究了Zn电极的不同形貌对电催化还原CO2性
白光LED因其具有耗能低、高发光效率、绿色环保等优点被认为是在白炽灯与荧光灯之后的新一代照明光源。利用紫外/近紫外芯片激发红、绿、蓝三基色荧光粉混合实现白光是白光LED的研究热点。但是,目前商用的Y2O2S:Eu3+红色荧光粉存在对近紫外光的吸收能力较弱、热稳定性较差和发光效率低等缺点,这严重制约了白光LED的发光性能。因此,本文以白钨矿结构的钨酸盐为基质,以Eu3+离子作为激活剂,成功制备了一系
作为电子鼻系统核心的气体传感器阵列排布在测试腔室中。由于传感器的响应受传感器表面的气味浓度和气流的流场形态影响,参照鼻腔结构对气流流场的影响,可推知电子鼻腔室的结构对气体传感有重要的影响。因此,优异的腔室结构设计能够改善传感器阵列的响应与恢复,进一步提升电子鼻系统的性能。本文的研究目标是基于计算流体力学模拟设计一新颖且优异的电子鼻腔室,以求增大传感器阵列的响应强度、缩短响应时间和恢复时间。此外,通
高镍三元正极材料LiNi0.6Co0.2Mn0.2O2(NCM622)具有放电比容量高、能量密度大、成本低廉等优点,是一种极具发展潜力的动力型锂离子电池(LIBs)正极材料。然而,倍率性能和高截止电压下循环稳定性差以及低温环境下容量衰减严重等问题限制了其在LIBs中的进一步应用。本文对NCM622正极材料进行掺杂改性研究,系统研究了其高倍率性能和低温性能。结合TEM、SEM、XRD精修、原位XRD
过渡金属硫族化合物中原子级厚度的二硒化钨(WSe2),因具有良好的载流子迁移率及1.60 e V(单层)的禁带宽度,所以在光电子器件及微电子器件等应用方面有效地弥补石墨烯零带隙的缺点。此外二硒化钨的表面无悬挂键,原子层厚度的材料制作成的晶体管有望减少短沟道效应,在后摩尔的时代发展前景十分广阔,因此二硒化钨成为目前科学家们的研究热点之一。研究已经表明,应变可以调控材料的能带结构和激子跃迁,从而在传感
光电信号转换在我们日常生活中具有举足轻重的地位。视频成像、光通讯、生物成像、安全、夜视、气体传感和运动监测等设备都需要高性能、大面积的光电信号转换技术。基于原子层厚度的二维过渡族金属硫化物的新型光电探测器兼具高速、宽谱、柔性等优点,备受研究人员关注。而二维半导体光电探测器的响应度和响应波长尚不能满足硅基光子学等应用的要求,严重制约了二维半导体器件的集成和应用。硅通常在约1.5%的应变下就会发生断裂