基于层次的混合聚类算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:xwg1217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速进步,人们已经被大量数据淹没,已经越来越没有时间看数据了,造成人们无法快速找到所需要的信息的困境。在面对大量数据时,必须找到有效的方法,可以自动的进行数据分类分析、数据汇总以及标记异常数据。数据挖掘就是在解决上述问题过程中而产生的技术。聚类技术作为数据挖掘的一个主要技术方法,是将相似的数据划分为簇,提供给人们针对自己的需求甄选数据的方法。目前,研究人员已经设计出了众多的聚类算法,其中基于层次的聚类算法一直是在应用领域中最有发展前景的算法,受到了广大学者的密切关注。首先,本文简单介绍了一下数据挖掘技术,之后针对聚类分析方法进行了深入的研究分析,总结了聚类算法应具备的特征,详细介绍了经典聚类算法的主要思想、代表算法并对比了各类算法的优势和缺陷。其次,针对Chameleon算法需要人为给出聚类的相关参数以及合并簇操作时不可逆的缺点,提出一种基于模块度的可回溯聚类算法BM-Chameleon。该算法会自动找到最适合本数据集的聚类参数,同时实现了回溯操作,保证得到最好的聚类效果。利用模拟数据对Chameleon算法和BM-Chameleon算法进行实验分析,结果显示BM-Chameleon算法可很好的改善聚类结果的质量。最后,为了解决引入模块度和回溯机制后Chameleon算法运行时间增加的问题,设计了一种混合聚类算法KBMC算法,将BM-Chameleon算法与传统的基于划分的k-means算法相结合,保证了聚类结果的精确度的同时也改善了算法的时间复杂度。使用模拟数据和实际数据对原算法和改进算法进行实验分析,结果显示KBMC算法具有更高的聚类准确度和更为理想的时间复杂度。
其他文献
参照国际标准,2010年泉州本地人口已进入了老龄化社会。同时,随着社会转型加快和生活水平的提高,子女婚后大多与父母分开居住,家庭规模趋向“三口之家”的核心化和小型化。在农村
目的 观察荆芥内酯类提取物对汗腺及血液流变学的影响。方法 大鼠腹腔注射给药 1h后 ,自踝关节处迅速取下双后足 ,10 %甲醛溶液固定 ,对足跖部汗腺腺泡上皮细胞在光镜下作
无线电通信技术的快速发展和普及应用,形成了越来越复杂的电磁环境,对频谱大范围的使用,导致了频谱资源十分紧张。为充分发挥频谱资源的价值,高频谱利用率系统的开发、加强频谱科
<正> 引言韦克斯勒(David Wechsler,1896——)是美国心理学家。1939年,韦氏在美国贝勒维精神病院编制了一套韦克斯勒——贝勒维智力量表,测量对象的年龄范围为10——60岁。后
<正>一、国际背景早在1978年,邓小平就前瞻性地提出了"到中国实现了四个现代化(指2000年),国民经济发展了,我们对人类特别是对第三世界的贡献可能会多一点"~①。那时,中国的
会议
可充锂空气电池具有能量密度高(达5200Wh kg-1,氧计算在内),绿色环保等优点,是目前备受关注的电化学能量存储体系。自K. M.Abraham构造出首个可充锂空气电池以来,世界各国科学家已
自20世纪80年代以来,质量管理大师克劳斯比(Crosby)所提出的质量管理成熟度(Quality Management Maturity)概念逐渐被世界各国接受。各国企业结合自身情况,将质量管理成熟度理念运
近年来,控制搭便车行为,建立良好的公共合作秩序越来越受到学者的关注,本文将通过实验的方法研究不同的奖励制度对控制搭便车行为的影响效果的差异,并寻找对控制搭便车行为最有效
大学生是国家未来的希望,是建设社会主义法治国家的接班人。为了促进我国社会主义法治的发展,需要提高大学生的法律意识。大学生身上承担着国家重要的使命,大学生是社会主义法治