联合划分和层次方法的多阶段聚类算法

来源 :云南大学 | 被引量 : 0次 | 上传用户:suzuzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于在商务管理、市场分析、决策分析、科学探索等领域的实用性,数据挖掘已经引起了广泛地关注。在数据挖掘中,聚类技术是一个很活跃的研究领域。聚类就是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程,使得位于同一类中的对象有高度的相似性,而不同类之间对象差异较大。聚类技术可以广泛应用于模式识别、市场研究、图像处理等领域。 在过去的研究中,已经提出了许多优秀的聚类算法,具体可以分为划分方法、层次方法、基于密度的方法,基于网格的方法,以及基于模型的方法等。在这些方法中,层次方法和划分方法是两种基本的聚类技术。层次方法能找到比较好的聚类结果,然而,就计算量和存储需求而言,层次聚类算法是昂贵的。另一方面,许多划分聚类算法的运行时间与输入数据只是线性相关。但相对于聚类结果,划分方法没有层次方法好。联合划分和层次聚类方法的特征,提出多阶段聚类算法是近年来的一个研究热点。基于此,提出了一个新的联合划分和层次方法的多阶段聚类算法。 层次聚类算法中广泛应用的簇间距离度量方法有最小距离法、最大距离法,平均值的距离法、平均距离法。这些方法都容易受到噪声的影响,文献[37]提出了一种新的簇间距离度量方法。该度量方法采用簇中权值最高的代表点之间的距离作为簇间的距离,有效消除了噪声对聚类结果的影响。本文提出了一个由两阶段组成的聚类算法:首先运用k-均值算法将输入的数据集分成一些小的子集,然后用文献[37]提出的方法作为相似度计算方法以层次的方式合并这些子集。最后,对本文提出的多阶段聚类算法的时间和空间复杂度进行了分析,并进行了多次实验。实验结果表明,算法是正确和有效的。
其他文献
随着Internet技术的高速发展和普及,企业对信息化建设的重视程度不断增加,迫切要求把Internet技术应用到企业信息化市场的开拓工作中去,因此现在利用Web技术,开发基于浏览器的B/S
随着计算机和网络技术的快速发展,用户之间的协同工作进入了通过互联网进行协同工作的时代,协同技术被应用于各个场景,时时刻刻影响着人们的生活。协同技术的实现大多是基于
Internet现在已经成为获取信息的重要源泉。但随着Internet上的信息呈指数级别的增长,用户逐渐被淹没在信息的海洋中,全面,及时的获取感兴趣的新闻和信息已经变得越来越难。
本文的研究工作基于“搏邦综合业务管理平台”(IBMP Office)的设计与实现,有效地将Web Service技术应用到综合管理平台的研发中。 先就系统使用的Web Service技术进行了研
随着网络技术的不断发展,Internet技术已经渗透到日常生活和工业生产的各个领域。这使得远程监测成为现实。JAVA是当前比较流行的一种网络设计语言,它最大的优点就是操作平台的
随着科学技术的迅速发展,人们生活各个方面都发生了重大的变化。监控技术的重要性正在逐渐被人们所认识和重视。目前,监控技术已经广泛应用于生产、生活等各个领域。铁路部门作
本文致力于用基于启发式学习+Q-学习的启发式Q-学习来解决在非合作泛和博弈框架下随机博弈的Nash均衡解的求解问题。决定一个有限状态随机博弈的Nash均衡解是否存在是一个NP-
设计模式以文档的形式把面向对象的软件设计经验记录下来,并予以系统的命名、解释和评价。其目的是使开发人员在进行系统的设计与开发时,可以使用前人的成功经验而不必为普通的
移动通信和互联网是当今信息产业发展的两个热点,两者融合产生的移动互联网及其应用,为信息产业带来巨大商机,两者相结合的产物WAP,是开发移动网络上类似互联网应用的一系列规范
“软件危机”,这一始于上世纪60年代的概念,始终伴随着软件业的整个历史发展进程。为了解决该问题,人们逐渐开始借鉴一些传统领域内的管理理论、方法和工具,以期解决软件开发中所