【摘 要】
:
聚类分析能够通过划分数据得到蕴含的有效信息,现在已经广泛应用于交通、工业等相关领域。而传统的二支聚类表示不能明确地表示那些不确定类簇归属的对象。三支聚类表示采用两个集合,通过核心域和边缘域来刻画类簇可以克服这个问题。但是目前的聚类算法大部分只能处理静态数据集,这种静态的处理方式显然不适用于处理动态数据集。增量聚类算法是行之有效的处理动态数据的一种方法。然而针对属性增量数据的聚类研究还较少。因此,针
论文部分内容阅读
聚类分析能够通过划分数据得到蕴含的有效信息,现在已经广泛应用于交通、工业等相关领域。而传统的二支聚类表示不能明确地表示那些不确定类簇归属的对象。三支聚类表示采用两个集合,通过核心域和边缘域来刻画类簇可以克服这个问题。但是目前的聚类算法大部分只能处理静态数据集,这种静态的处理方式显然不适用于处理动态数据集。增量聚类算法是行之有效的处理动态数据的一种方法。然而针对属性增量数据的聚类研究还较少。因此,针对属性增量数据的聚类问题,本文基于粒计算、三支聚类等方法展开了如下研究工作。针对属性增量数据聚类问题,本文提出了一种多粒度增量属性的聚类算法。该算法通过密度峰值算法获得初始聚类结果;然后对于某一时刻新增的属性粒集合,将其与原有属性粒结合,形成多粒度层;在不重复聚类的前提下,通过对象的邻域信息结合原有的聚类结果动态地更新聚类结果,直至没有新的属性粒集合加入为止。针对对象含有不确定信息的属性增量数据聚类问题,本文将上述方法进行改进提出了基于多粒度的增量属性三支聚类算法。该算法首先通过密度峰值算法获得三支表示的初始聚类结果;然后对于某一时刻新增的属性粒集合,先过滤冗余属性,将剩余属性加入到原有属性粒集合中,并判断边界点与其他非边界点的平均距离;随后统计并计算对象的邻域距离信息、邻域归属类簇信息(邻域对象属于类簇的核心域/边缘域),结合原有的聚类结果以及马氏距离等方法动态地更新原有的类簇归属;最后利用三支思想将类簇归属划分为核心域与边缘域,随后判断类簇数目变化情况;直至没有新的属性粒集合加入为止。本文在Iris、Statlog和Waveform等10个UCI的真实数据集对所提出的算法与密度峰值聚类在相同粒度上的结果进行了对比分析验证,实验结果表明本文提出的方法在指标NMI、RI、Accuracy上大多数情况下优于对比算法,表明本文的研究工作对于处理属性增量数据的问题是有效的。
其他文献
橡胶坝由混凝土坝身和橡胶坝袋结合而成,混凝土坝身施工和橡胶坝袋安装至关重要,将直接影响橡胶坝整体的安全运行,在工程施工中应加以重视。文章从主体工程建设施工、混凝土浇筑
文章明确了生产建设项目水土保持监测工作的重要性,分析了现阶段监测工作存在的问题。提出了规范监测工作的几点意见。
目的:分析术前放化疗对中晚期食管癌围手术期免疫功能的影响。方法:选取广西医科大学附属肿瘤医院2008年1月至2011年1月收治138例患者,按照治疗方法分成2组,NCRT组予以放化疗联
在沼气建设推广普及的同时,由于重建轻管,后续服务滞后等原因,导致病漏池不断攀升,用户反映强烈,负面影响大,给沼气建设工作带来一定难度。针对病漏池存在现状,该县已组织人力维修近
目的:分析颅内非松果体区生殖细胞瘤临床表现、检查、诊断和治疗的特点。方法:对我院1993—2007年收治的10例颅内非松果体区生殖细胞瘤进行回顾性分析。结果:男性7例,女性3例;发病
QQ中经常有人喜欢用大字聊天,但窗口大小有限,这样就只能显示有限的文字。其实,只要在聊天窗口中选中文字和图片,并在按住Ctrl键的同时滚动鼠标滚轮,聊天窗口中的文字或图片
目的:检测人垂体瘤转化基因1(human pituitary-tumour transforming gene,hPTTG1)与存活素(sur-vivin)在直肠癌、直肠腺瘤和癌旁正常组织中的表达,分析两者与直肠癌生物学行为的关
目的:评价奥沙利铂联合卡培他滨治疗进展期胃癌的疗效、不良反应和安全性。方法:45例进展期胃癌(AGC)患者采用奥沙利铂联合卡培他滨(XELOX)方案化疗,奥沙利铂130mg/m2,静脉滴注2h,d
本文从羌国存在巨额贸易逆差而美元却保持强势这一矛盾现象出发,分析了美元在各种经济金融动荡乃至突发性事件冲击下都能保持强劲的深层原因。首先,美国政府遏制日元与欧元;其次
拓扑控制技术是无线传感器网络(WSN)中的关键技术之一,主要作用是在保证一定网络连通度和覆盖区域的情况下,控制网络形成一个完善的网络拓扑结构,使得WSN中以最少的处于工作