聚类集成有效性要素理论与方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:eastwood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,数据正成为当今社会的重要资源.一方面,传感器技术和存储技术的发展使得诸多领域中积累了大量数据;另一方面,计算能力的发展和数据的智能化处理技术为数据处理提供了技术支撑.聚类分析是获取数据价值的一种关键技术,主要针对普遍存在的无标记数据,也为诸多数据处理技术提供了有效的数据预处理方法.目前研究者已经提出了大量聚类模型和算法.然而,多数聚类算法仅适用于特定的情景、特定的假设,当前复杂的数据环境对单一聚类方法的有效性、鲁棒性、稳定性均带来了巨大的挑战.融合多个异质聚类结果的聚类集成技术是有效应对这一挑战的重要策略.此外,聚类集成灵活的流程还拓宽了数据聚类的应用范围.鉴于此,聚类集成受到研究者的广泛关注,并取得了一定的研究成果.由于缺乏监督信息,聚类集成的有效性尚没有系统的理论支撑,紧密关联其有效性的因素仍不清晰.这些限制了聚类集成算法的性能,阻碍了聚类集成研究的深入性.因此,开展聚类集成的有效性要素理论与方法研究具有重要的理论创新意义和实际应用价值.本文紧密结合聚类集成的一般流程,揭示了五个要素与聚类集成有效性的内在关系.其中,聚类集成有效性主要指聚类结果的准确性(Accuracy),五个因素分别为基聚类集因素(Base clustering set element)、类簇质量因素(Cluster quality element)、数据特性因素(Data characteristic element)、关系表示因素(Expression element)、融合策略因素(Fusion strategy element).提出引入这些因素提出聚类集成算法,分析其对聚类集成性能的影响,以期进一步提升聚类集成的泛化性能(Generalization).最后形成一个聚类集成有效性要素范式:A=f(B,C,D,E,F)→G.本文主要的研究内容和研究成果如下:一、面向符号型数据和混合型数据分别提出了一个基于空间结构的聚类算法.针对符号型数据和混合型数据空间结构不清晰的特点,提出了一个空间结构表示方法.实验分析表明,空间结构表示方法不仅可以有效保持数据在原始空间中的分布,还可进一步提供更加丰富的测度信息.在此基础上,提出了基于空间结构的符号数据聚类算法和基于空间结构的混合数据聚类算法.所提算法在数据的空间结构表示上,采用高效的数值型数据聚类算法获得最终聚类结果.实验分析表明,相比代表性方法,该类算法在时间消耗相当的前提下获得了聚类性能上的显著提升.二、揭示了基聚类选择过程中类簇质量因素与聚类集成有效性的关联.将基聚类选择过程中的评价对象精细化到类簇层面,提出了一个基于匹配度的类簇质量评价指标SME.理论研究表明,SME指标可同时有效缓解已有指标存在的内部一致性失效问题和外部一致性失效问题.实验分析表明,以SME为评价准则对类簇进行加权带来聚类集成性能上的明显提升.此外,提出了一个新的选择性聚类集成框架DSME,该框架结合选择性聚类集成中选择和融合阶段的不同需求,在选择阶段注重差异性,在融合阶段注重准确性.实验分析表明,与其他代表性选择性聚类集成方法相比,嵌入SME指标的DSME对聚类集成性能提升更加明显.三、揭示了基聚类融合过程中数据特性因素与聚类集成有效性的关联.将一个样本与其他样本关系确定程度的平均值定义为该样本的稳定性,从样本稳定性角度研究了数据特性因素与聚类集成有效性的关联.样本稳定性可用来反应一个样本对正确挖掘团簇结构的贡献度,为聚类集成中区别对待样本提供了度量准则.从理论上分析了样本稳定性定义的合理性,并在图像分割场景下可视化地展示了样本稳定性的合理性.在此基础上,提出了基于样本稳定性的聚类集成算法,该算法针对稳定样本集和不稳定样本集分别采用针对性策略.在人造数据上的实验可视化地展示了该算法的运行机制,在基准数据集上的实验分析验证了该算法的有效性和鲁棒性.四、揭示了基聚类融合过程中关系表示因素与聚类集成有效性的关联.首先指出了样本共现关系表示矩阵存在的稀疏性缺陷和低价值密度缺陷.为应对稀疏性缺陷,引入最短路径技术重构了关系表示矩阵.从理论上证明重构后关系表示矩阵可发现更合理的原型样本,并在二维人造数据上可视化地验证了这一结论.为应对低价值密度缺陷,提出了一个生长树模型.该模型引入最大间隔理论度量样本可正确划分的置信度,优先处理置信度高的样本.人造数据上的实验可视化地展示了生长树模型的运行机制,在基准数据集和图像数据集上的实验分析验证了该算法的有效性.五、揭示了基聚类融合过程中融合策略因素与聚类集成有效性的关联.提出了基于证据理论的融合策略.该策略在融合过程中考虑了数据的分布信息.从理论上证明了,当基聚类优于随机划分时,基于证据理论的融合策略可获得正确的集成结果.此外,从理论上证明了二类情况下,基于证据理论的融合策略优于投票策略.提出了基于证据理论的聚类集成算法.实验分析表明,在引入基于证据理论的融合策略后,聚类集成性能有了明显提升.以上研究成果为聚类集成有效性提供了较系统的理论支撑,为聚类集成理论研究提供了新思路,为聚类集成算法设计提供了指导性思想.本文研究既丰富了聚类分析的研究内容,也为复杂环境下的数据处理提供了技术支持.
其他文献
在聚合物支架内沉积羟基磷灰石涂层有望提高支架的生物活性和骨传导性.本研究采用交替浸渍沉积法,以块状壳聚糖(Cs)三维多孔支架为沉积模板,在氯化钙溶液和磷酸氢二钠溶液中交
成本低、速度高的途径 铁路运营是否需要现代网络?加拿大国营铁路公司的计算系统与电信设施部主任Sameh Fahmy认为这很有必要。同当今竞争环境下的其他公司一样,铁路公司提供
摘要:阿佩尔哲学思想的核心问题是人类理性和道德义务的最终根基何在。这一问题意识体现了阿佩尔对当代哲学发展和时代弊病的深刻把握,也表明了其维护统一理性的意图和努力。其
吡咯烷二硫代氨基甲酸铵(APDTC)是一种环境友好型金属缓蚀剂,以其在铜表面制备了自组装单分子膜(SAMs),用电化学方法研究在0.5mol·L^-1 HCl介质中APDTCSAMs对铜的缓蚀作用及
教学目标一、知识和技能1.把握《林黛玉进贾府》中的环境描写及其特点,理解课文环境描写的作用。
鲟形目(Acipenseriformes)鱼类是硬骨鱼纲中唯一现存的大型软骨硬鳞鱼类,具有极高的科学价值和经济价值。受过度捕捞、水利工程建设、栖息地破坏等人类活动的影响,全球27种鲟
车站结帐统计是车站计算机售票软件中的重要组成部分。作者就全路客票发售和预订系统车站级售票软件中结帐统计系统功能和实现方法,系统需求进行分析;确定了以售票和退票存根
本文根据会计报表的特点和复杂性,设计了一套描述会计报表编制方法的形式定义语言,同时也给出了计算机识别的方法。
采用分子动力学方法对液态Ca7Mg3合金凝固过程中团簇结构的形成特性进行了模拟研究.采用双体分布函数、Honeycutt-Andersen(HA)键型指数法、原子团类型指数法(CTIM)以及遗传跟踪
作者通过对济南铁路局TMIS建设现状及存在问题的分析,从规划、开发、维护、管理等方面就如何加快TMIS建设进行了探讨,并提出了相应对策。