基于外部验证指标的一致性聚类算法研究

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:lh923
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界中,聚类可能会出现不同的形状和大小,数据中的噪声也可能掩盖数据中存在的真实结构。虽然存在大量的聚类算法,但是很难找到一个能够处理所有簇形状的单一聚类算法。受集成分类研究的启发,人们开始关注一致性聚类方法的研究。一致性聚类本质上是组合优化问题,在现有的文献中,已经提出了许多算法来解决计算挑战。作为一种有效的一致性聚类方法,基于聚类有效性验证的外部指标被用作一致性聚类的共识函数,但是现有的研究工作仍处于初步和零散的状态。实际上,适用于一致性聚类共识函数的外部聚类验证指标的一般理论框架尚未建立。而且,对影响外部指标引导聚类集成的性能的关键因素也未进行深入探讨。为了填补这一空白,本文提供了基于外部聚类验证指标引导聚类集成求解一致性聚类的系统研究。具体而言,本文的主要工作包含以下几个方面:1.本文调研了33种广泛使用的聚类外部验证指标,并对外部指标进行类别划分,通过数学变换发现了一些外部指标的等价关系,通过实验验证发现了一些外部指标对Kmeans聚类结果的误导验证。然后将外部指标设计为一致性聚类的共识函数来引导聚类集成,当外部指标被用于引导聚类集成时,发现有一些外部指标是等价的,有一些外部指标是有缺陷的,同时提供了相关推论和证明。2.本文针对外部指标的一致性聚类性能评估,设计了一个优化算法框架,在通过单个对象的簇标记变化来更新目标函数的基础上,利用基于单点搜索的元启发式方法优化目标函数。具体地,本文选择了一种模拟退火优化策略将需要评估的外部指标在大量真实数据集上进行实验比较,从两种性能评价指标的归一化角度和排序角度分析各个外部指标的性能差异,为一致性聚类选择合适的外部指标作为共识函数。3.本文选择了5个聚类算法作为比较基准,包括三个单一聚类算法和两个一致性聚类算法,对比本文的一致性聚类算法与其他基准算法在聚类性能上的差异,大量实验结果表明本文实现的算法也具有出色的聚类性能。4.本文探讨了可能影响所提出的一致性聚类算法性能的主要因素,通过在真实数据集上特别设计的实验研究了基础分片的数量和质量对算法性能的影响。实验结果表明本文的算法对基础分片的数量并不十分敏感,而基础分片的多样性会对聚类性能产生重要影响。
其他文献
在工作场所中,员工创造力是指其对于产品、服务、流程或商业模式所产生的新颖想法,员工创造力是整个组织创新的基石,当前技术发展日新月异的情况下,提高组织创造力是每个企业都关心的问题。提升组织创造力的关键在于人,即在于每位员工创造力的提升。因此,对员工创造力的研究十分必要。由于好奇心程度较高的员工承担风险的意愿较高,且善于处理不确定性问题,因此他们在工作中更有可能思考出创造性想法并积极付诸实践。同时,好
推荐系统根据用户行为,向用户推荐其可能感兴趣的物品。传统的推荐算法主要是基于领域的算法、隐语义模型等机器学习算法,近年来,神经网络因其强大的表示学习能力,逐渐被用于推荐领域,并取得了比传统算法更出色的效果;传统的协同过滤算法仅依赖于评分矩阵进行推荐,而忽视了丰富的边带信息,例如数据内在的结构信息和文本图像等内容信息,因而普遍面临数据稀疏和冷启动问题。基于以上两点,本文研究基于神经网络的个性化推荐系
SSD(Single-Shot MultiBox Detector)是一种流行的目标检测方法。目前,利用卷积神经网络进行目标检测占据主导地位。然而,卷积神经网络在结构上存在固有的问题:高层网络接受域大,语义信息表示能力强,但分辨率低,几何细节信息弱。低层网络的接收场相对较小,具有较强的几何细节信息表示能力。虽然分辨率越高,但语义信息表达能力越弱。SSD利用多尺度特征映射预测目标,同时利用接收场大的
非均相芬顿催化氧化法作为一种高级氧化技术成为研究热点。然而,其p H适用范围窄、催化活性低以及难以重复使用等缺点限制了其实际应用。缺陷型金属有机框架(MOFs)具有可调活性
结构洞理论的提出是为了解释如何从社会网络的竞争及其交叉关系中获益。但随着信息技术的发展,这一理论逐渐被应用到不同的研究领域如社交网络分析、功能性脑网络构建,传染病防治的有效隔离等。目前,有关结构洞的研究大都停留在理论分析及实际问题的应用。与此相比,结构洞挖掘方法的研究相对较少,现有经典的方法主要以图论知识为基础并结合网络拓扑结构的性质进行结构洞的检测,这些算法存在计算复杂,可扩展性差,难以适应于大
在21世纪各种资源都迅猛发展的社会背景下,伴随着经济指数的日益增长,企业与企业之间的竞争也日益加剧。竞争看似是资源的竞争,其实质是人的竞争。这些年来,各领域各行业迅速发展,再生资源行业也不例外,影响企业经营战略目标的除了生产设备等硬件因素,员工素质的高低也决定着企业目标能否顺利实现。员工是否具备良好的素质,充分发挥自己的积极作用,实现企业的发展目标,很大程度上取决于他们自身所具备的心理资本水平。而
改革开放以来,农业问题一直是我国发展中的大问题,但农业生产中的主要矛盾已经从总供给不足转变为结构性矛盾,其主要表现为供需错配,随之而来的还有生产成本增加、大量资源浪费、农业发展速度减缓,这是全面建成小康社会必须要解决的问题。要解决农业生产中的结构性矛盾,必须全面铺开进行农业供给侧结构性改革:矫正要素的扭曲配置、扩大有效供给、减少库存、降低生产成本等等,涉及农业生产的方方面面,然而目前大量文献都只是
铌镁酸铅-钛酸铅[(1-x)Pb(Mg1/3Nb2/3)O3-x Pb Ti O3,(PMN-PT)]弛豫铁电材料介电性能高、压电性能高和电致伸缩性能优异,在加速度计、水听器、医用超声换能器和微位移驱动器等方面应用广泛。PMN-PT多晶陶瓷是ABO3型钙钛矿相结构,由于稀土元素离子半径与A位Pb2+离子半径相似,因此在PMN-PT陶瓷中掺入稀土元素不会影响其钙钛矿相结构,这种局部异质结构能提高陶瓷
能源问题往往决定着世界经济的走向,然而伴随着能源的大量消耗,由此而导致的环境污染等问题逐渐突显出来。因此,寻找一种可再生并且对环境友好型的清洁能源一直是近年来的热门话题。氢气作为一种高密度的清洁能源逐步受到人们的关注,为此科研工作者也对其进行了长期的摸索,电分解水制氢便是其一。然而传统的电分解水制氢的效率并不是很理想,好在随着电催化剂的引入制氢的效率近年来逐步提升。但目前仍然面临着一个问题,高性能
税收风险控制作为保障国家税源、提高我国财政税收管理水平的重要构成要素,其对国民经济社会的有效发展以及基层治理体系的建立完善均具有不同程度的意义。我国近年来税收征管领域频繁进行制度改革,营改增、国地税合并等宏观制度改革在微观层面上对于区域与税务局的税收征管风险控制提出全新要求。在全新背景下提高我国基层税收机关的风险控制能力,提高税务机关人员和各项资源协同配置水平,提高基层税收征管风险控制效率,保障国