【摘 要】
:
聚类分析是数据挖掘领域最为重要的技术之一,也是学术界研究的热点问题,至今已在理论和方法上取得了丰硕的研究成果,并在各个领域的数据分析中起到重要作用。在众多的聚类算法中
论文部分内容阅读
聚类分析是数据挖掘领域最为重要的技术之一,也是学术界研究的热点问题,至今已在理论和方法上取得了丰硕的研究成果,并在各个领域的数据分析中起到重要作用。在众多的聚类算法中,基于划分的K均值聚类算法最为经典,应用领域广泛。模糊C均值算法属于其中的一个变种,保持了其思想简单易行的特点,时间复杂性接近线性,对大规模数据的挖掘具有高效性和伸缩性。为了解决多维数据集中对象之间的基于欧式距离度量的相似性度量差别不是很明显的问题,提出了基于变异系数的模糊C均值聚类算法。算法采用变异系数加权的欧式距离,引入了基于最大距离选取质心的方法初始化质心,使用KNN距离之和的倒数作为对象的密度并过滤掉离群点和噪声点,在高密度对象中选取最大距离的对象作为质心,使用加权的欧式距离计算隶属度矩阵并根据隶属度更新质心的位置。实验结果表明该聚类方法比一般的模糊C均值方法聚类结果更好,实际效果优于一般模糊C均值方法。为了提高混合属性数据集上的聚类精度问题,提出了一种基于加权模糊C均值的聚类算法。权值由数值属性和分类属性的距离之和计算,算法在数值属性上随机选取质心,使用加权的距离计算隶属度并根据隶属度更新数值质心的位置;在分类属性上,依据初始数值质心划分的簇确定初始分类质心,将每个对象的分类属性划分到其隶属度最大的分类质心,并以所属簇内对象每个属性上出现的次数的集合作为质心。实验结果表明该算法可以发现数值属性和分类属性的混合数据集中的簇,与现有的同类算法相比,准确度有一定提高。
其他文献
随着全球经济的震荡,中国对外贸易受到一系列的影响,国际经济与贸易从一个"热门"专业开始变的"不景气",作为国际经济与贸易专业的学生,我们需要明确在校期间如何自我提高;企
随着全球能源需求量的不断增加,风能、太阳能等新能源不断涌现,由于其出力的间歇性和不稳定性,给配电网的安全带来了严重的威胁。为了应对这些问题,需要给配电网无功电压进行
"叫好"、"叫座"是评论一部电影的两大基本标准。电影《白鹿原》成功上映却没能获得好的成绩,其中不断删剪固然是原因之一,但更多的是来自于电影内部,如主题丢失、叙事断裂、人物
明朝的法制建设在中国法制史上有着重要的地位,其中明初以严法整顿吏治尤其具有突出影响.本文主要论述了朱元璋重典治国的法律思想,是明初以严法整顿吏治的指导思想.另外,文
针对堆积床相变蓄热罐,建立二维非稳态连续固相模型,对其蓄热特性进行数值研究。通过模拟结果揭示了蓄热过程中斜温层的变化情况以及换热温差的分布状态。探究了初始温度、传
综述了国内外600℃高温钛合金的发展历程及其应用。分析了各国600℃高温钛合金的成分特点、热加工工艺和组织特点等。提出了我国600℃高温钛合金的研究重点。
<正>福建漳州木版年画始于宋代、盛于明清,内容主要是喜庆迎新和避邪两大类,流传于漳州的芗城区和闽南、岭南一带,并远销台湾、香港和东南亚等地。
<正>由北京师范大学、国家新闻出版广电总局、电影频道节目中心、中国电影资料馆、中国电影报社、北京电视台等多家单位联合主办,北京师范大学艺术与传媒学院执行承办的第23
日前,国家能源局发布4月份全社会用电量等数据。4月份,全社会用电量4569亿千瓦时,同比增长1.9%。1~4月,全国全社会用电量累计18093亿千瓦时,同比增长2.9%。剔除2月份闰月因素
土壤有效硫检测的常规方法是利用硫酸钡比浊法,鉴于规范推荐的测试步骤在批量土壤样品测试时效率较低,因此对常规方法进行了改进。加入2.0g氯化钡晶粒改为加入浓度为200g/L氯