【摘 要】
:
为了弥补传统K-means算法聚类效果严重依赖于初始聚类中心这一不足,提出了OICCK-means算法.将不加权算术平均组对法(UPGMA)进行改进,通过该算法将密集区域的数据合并得到可以反
【基金项目】
:
国家自然科学基金(61640020),江苏省科技支撑计划(BE2012386,BE2011342),江苏省农业自主创新项目(CX(13)3054、CX(16)1006),江苏省重点研发计划(BE2016368-1)
论文部分内容阅读
为了弥补传统K-means算法聚类效果严重依赖于初始聚类中心这一不足,提出了OICCK-means算法.将不加权算术平均组对法(UPGMA)进行改进,通过该算法将密集区域的数据合并得到可以反映数据分布的若干数据点,再由最大最小距离算法从中选出彼此相距较远的点,作为传统K-means算法的初始聚类中心,从而使K-means算法有一个可以反映数据分布特征的输入.在典型数据集上进行的实验发现,相较于传统K-means算法,OICCK-means算法拥有更强的聚类能力,在准确率、召回率和F-测量值方面均有明显提高
其他文献
随着集成电路设计规模的不断扩大,系统变得更加庞大和复杂,在设计系统芯片的各个流程中,像系统定义、软硬件划分、设计实现等都变得越来越复杂.如何满足日益复杂的SoC设计要
在传统的WEB项目开发过程中,一个WEB项目的框架从无到有,往往需要投入大量的开发资源,并且开发团队技术的好坏,直接决定了最终WEB项目框架的优劣。所以能否在开发团队技术已
词汇模型在表征工程技术知识文档特征时,将文档切分为一个个相互不关联的词,较难提取出文档的语义特征。如果考虑到一条语句中词之间的关联性,根据工程技术知识文档的语义结
软件缺陷预测的目的是通过历史缺陷数据预测新软件模块的缺陷倾向性,从而提高软件系统的质量。软件的缺陷模块存在结构复杂和类别分布不平衡的问题,并且历史数据是有限的。针
随着互联网的急速发展,盗版,不健康,暴力等视频在网络上肆意流窜,如何快速、有效、准确地对视频数据进行管理,已然成为迫切需要解决的问题。在视频处理过程中,首先是对镜头进行分割,然后再进行视频帧的分析处理。然而许多视频内容的复杂性比较高,不一定能得到比较好的分割结果。鉴于此,提出一种基于互信息量和自回归模型的自适应阈值镜头分割算法。该算法首先以非均匀分块加权HSV直方图为基础,通过计算两帧的互信息量求
定义了最小超球面密度的概念,提出了一种基于最小超球面密度的孤立点检测算法(minimum hyper sphere density,MHSD)。该算法根据数据的 k 近邻和反 k 近邻获得数据的有效近邻