复杂分布数据的二阶段聚类算法

来源 :软件学报 | 被引量 : 0次 | 上传用户:hldu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少.
其他文献
目前,我国民办高校的绩效管理存在绩效考核目的导向性偏差、缺乏有效的约束监督机制等问题,这种现状已经不能适应民办高校的发展规模及发展要求。改进并进一步完善民办高校绩
文章分析了激光焊接的工作原理和特点,以及激光焊接在汽车工业中的应用和发展前景,着重研究焊接参数如激光焊接,激光脉冲波形,激光脉冲宽度,离焦量,焊接速度,电流和频率对焊
目的:研究妊娠期和非妊娠期阴道感染情况以及不良妊娠结局的发生情况。方法:在我院妇产门诊收集非妊娠健康妇女350例为对照组,收集各个孕期的健康妊娠妇女350例为试验组。对其
目的研究片仔癀对结肠炎相关性结肠癌(CAC)的影响及其可能机制。方法BALB/c小鼠45只,随机分为正常组、模型组和片仔癀(0.234g/kg)治疗组;采用腹腔注射氧化偶氮甲烷(AOM)及饮用葡聚糖硫酸
信息技术作为一门相对独立的课程在新课程体系中具有举足轻重的地位。德育教育在中小学教育体系中也是非常重要的环节。德育教育的方式、途径有很多,而主阵地却在课堂,各个学
随着高等教育大众化趋势不断加快,民办高校如雨后春笋获得了广阔的发展空间,民办高校的竞争也越来越激烈。要在这样激烈的竞争中取得先机发展壮大,民办高校必须有准确的战略
目前国内外可穿戴设备研发技术不断进步,实现"用户--设备--环境"三者之间的信息互动。本文对市场上的可穿戴设备进行形式和功能类型的梳理,通过对体育运动类、医疗健康类、安
目的探讨晚期先兆流产保胎患者检测宫颈分泌物的临床意义,为预测晚期先兆流产保胎结局提供依据。方法选择2012年6月—2015年12月该科收治的需住院保胎治疗的晚期先兆流产患者
<正>出现于八十年代中期的农民进城务工的浪潮,是我国改革开放的必然结果,也是我国从农业社会向现代工业社会迈进的必然产物。但农民在进城务工时却遭遇着法定权益的缺失,由
我国人口众多、资源有限。集太阳能、风能、海洋能等多种新能源于一身的青岛奥林匹克帆船中心成为青岛市新能源开发利用的典范。海水源热泵技术让海水来调节温度、大型太阳能