论文部分内容阅读
【摘要】模糊聚类分析是以相似性为基础,主要用于研究样本的分类问题。在模糊聚类的基础上,提出了通过构造最优(劣)样本,分别计算各类样本与最优(劣)样本的相似系数,根据与最优(劣)樣本最相似者为最优(劣)原则,确定聚类结果优劣次序,从而使之具有综合评价功能,并通过车内空气质量的综合评价验证了应方法的实用性。
【关键词】模糊聚类、构造、最优(劣)、综合评价
Abstract: Fuzzy clustering analysis based on similarity, and mainly was used for sample classification. In this paper, by fuzzy clustering to construct optimal (poor) samples, and then calculate the similarity between various samples and optimal (poor) samples. Finally,according to this similarity to evaluate the order of clustering results.
Key words: fuzzy clustering, construct, optimal (poor), comprehensive evaluation
1模糊聚类分析的基本原理[1-5]
模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性, 通过建立模糊相似关系,并在此基础上根据一定的隶属度来确定分类关系,也就是用模糊数学的方法把样本之间的模糊关系(相似性)加以定量的确定,从而客观且准确地进行分类。其一般过程为:对于给定论域(需聚类的样本集),采用平移极差变换对原始数据进行标准化,然后利用距离系数或相似系数建立模糊相似矩阵(模糊相似关系)R,因为如此建立的模糊相似关系一般不具有传递性,通常用传递闭包法将其改造成模糊等价关系,称为R的传递闭包t(R),然后在适当的水平λ上截取t(R),得到普通等价关系Rλ,从而实现分类。不同的水平λ决定了不同的普通等价关系,从而也决定了不同的分类结果。
由于现实的分类过程往往伴随着模糊性,所以用模糊聚类的方法来进行聚类分析会显得更自然、更符合客观实际。
2基于模糊聚类的综合评价方法
由上述,模糊聚类分析主要用于研究样本的聚类,根据样本之间的相似性,把最相似的样本聚成一类。然而现实情况下,仅仅知道样本的分类是不够的,还需要知道不同类之间的优劣等次,并给出评价。
模糊聚类过程中,为了确定各个样本之间的关系,通常采用距离d或相似系数来表示样本之间的接近程度[6],距离d越小两样本越接近;或者,相似系数越接近1两个样本越相似。基于此,在聚类的基础上,我们构造一个最优(劣)样本,该样本的各项指标为论域中所有样本相应指标的最优(劣)值(通常就是最大值),然后考查聚类结果中各类与最优(劣)样本的相似性,根据与最优(劣)样本最相似者为最优(劣)原则,从而确定聚类结果的优劣等次的评价。
3基于模糊聚类的综合评价方法的一般步骤
步骤1 确定论域,并构造最优(劣)样本
步骤2 原始数据标准化
步骤3 建立模糊相似关系
步骤4 计算传递闭包并聚类
步骤5 比较聚类结果与最优(劣)样本的相似性,完成评价
4车内空气质量的综合评价
4.1 确定论域并构造最优(劣)样本
随着家用汽车消费的快速增长,汽车室内空气质量(污染)问题也越来越引起人们关注,车内空气污染物主要是由甲醛、苯、TVOC(总挥发性有机化合物)等对人体有害物质构成,各污染物的浓度可由相关专业机构检测,在目前国内尚无车内空气污染物浓度限值标准的情况下,对各种不同车型、车辆的车内空气污染水平作一科学合理的分类、评价将是有意义的。
选择10辆家用小汽车,要求使用时间在3个月以内,且行驶里程在12000公里以内,没有经过内饰改装或除甲醛等处理,车辆使用者无在车内吸烟等习惯,平时没有装载其他会增加或减少车辆异味的物品。在外部空气质量和天气状况良好,室外温度20-30℃的情况下检测其车内空气中甲醛、苯、TVOC的浓度,选取样本的原始检测数据如下表:
从而得到十辆汽车车内空气污染分类为C1={1,5,7},C2={2},C3={3,6,10},C4={4,9},C5={8}。
4.5 综合评价
上述聚类结果说明当相似水平为λ=0.983,表1中汽车{1,5,7}车内空气质量相似,其特点是车内空气中甲醛、苯、TVOC的浓度都较高;{3,6,10}相似,车内苯的浓度较低但甲醛和TVOC的浓度都较高;{4,9}相似,车内甲醛、苯、TVOC的浓度都较低;而{2}甲醛、苯、TVOC的浓度都高,{8}甲醛、苯浓度较低而TVOC的浓度稍高于第三类。
计算上述各类中心(使用标准化的数据)如下:
C1={0.667,0.719,0.771},C2={1,0.94,0.063},C3={0.667,0.925,0.313},C4={0,0.043,0.668},C5={0,0.569,0}。
再计算类 C1,C2,C3,C4,C5 与最劣样本{1,1,1}的相似系数(仍用夹角余弦法),分别为:0.9982,0.8415,0.930,0.6122,0.5774。从而可知车内空气质量的优劣等次为C5,C4,C2,C3,C1。即类C1车内空气质量综合评价最差,污染最严重;而类C5车内空气质量综合评价最好,即污染最轻。
5结束语
模糊聚类分析是基于样本之间的相似性,将最相似的样本聚成一类。但不能直接实现传统意义的名次排序。通过构造最优(劣)样本,根据与最优(劣)样本最相似者为最优(劣)原则,可以确定各类的优劣名次。本文的应用实例说明该方法无需依赖其他先验信息,只需根据评价对象指标数据就可得出对象的分类和评价结果,具有一般意义。
参考文献
[1]高新波 模糊聚类分析及其应用[M].西安电子科技大学出版社,2004.
[2]罗兰星 基于基于传递闭包法的西南5城市环境质量评价分析[J].上海理工大学学报,31(3)2009:303-306
[3]冯梅 基于模糊聚类分析的教师课堂教学质量评价[J].学的实践与认识,2008,38(2):12-15.
[4]张秀梅,王 涛 模糊聚类分析方法在学生成绩评价中的应用[J] 渤海大学学报(自然科学版) 28(2) 2007.6:169-172
[5]张东生,季超等.基于模糊聚类的考试分析方法[J].电脑知识与技术5(33), 2009.11:9579-9580,9590
[6]邵峰晶 于忠清等 数据挖掘原理与算法(第二版) [M] 科学出版社2008:181-182
作者简介:赵建文(1970--)男,浙江仙居人,浙江师范大学幼儿师范学院讲师,主要从事应用数学,数据挖掘教学与研究。
【关键词】模糊聚类、构造、最优(劣)、综合评价
Abstract: Fuzzy clustering analysis based on similarity, and mainly was used for sample classification. In this paper, by fuzzy clustering to construct optimal (poor) samples, and then calculate the similarity between various samples and optimal (poor) samples. Finally,according to this similarity to evaluate the order of clustering results.
Key words: fuzzy clustering, construct, optimal (poor), comprehensive evaluation
1模糊聚类分析的基本原理[1-5]
模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性, 通过建立模糊相似关系,并在此基础上根据一定的隶属度来确定分类关系,也就是用模糊数学的方法把样本之间的模糊关系(相似性)加以定量的确定,从而客观且准确地进行分类。其一般过程为:对于给定论域(需聚类的样本集),采用平移极差变换对原始数据进行标准化,然后利用距离系数或相似系数建立模糊相似矩阵(模糊相似关系)R,因为如此建立的模糊相似关系一般不具有传递性,通常用传递闭包法将其改造成模糊等价关系,称为R的传递闭包t(R),然后在适当的水平λ上截取t(R),得到普通等价关系Rλ,从而实现分类。不同的水平λ决定了不同的普通等价关系,从而也决定了不同的分类结果。
由于现实的分类过程往往伴随着模糊性,所以用模糊聚类的方法来进行聚类分析会显得更自然、更符合客观实际。
2基于模糊聚类的综合评价方法
由上述,模糊聚类分析主要用于研究样本的聚类,根据样本之间的相似性,把最相似的样本聚成一类。然而现实情况下,仅仅知道样本的分类是不够的,还需要知道不同类之间的优劣等次,并给出评价。
模糊聚类过程中,为了确定各个样本之间的关系,通常采用距离d或相似系数来表示样本之间的接近程度[6],距离d越小两样本越接近;或者,相似系数越接近1两个样本越相似。基于此,在聚类的基础上,我们构造一个最优(劣)样本,该样本的各项指标为论域中所有样本相应指标的最优(劣)值(通常就是最大值),然后考查聚类结果中各类与最优(劣)样本的相似性,根据与最优(劣)样本最相似者为最优(劣)原则,从而确定聚类结果的优劣等次的评价。
3基于模糊聚类的综合评价方法的一般步骤
步骤1 确定论域,并构造最优(劣)样本
步骤2 原始数据标准化
步骤3 建立模糊相似关系
步骤4 计算传递闭包并聚类
步骤5 比较聚类结果与最优(劣)样本的相似性,完成评价
4车内空气质量的综合评价
4.1 确定论域并构造最优(劣)样本
随着家用汽车消费的快速增长,汽车室内空气质量(污染)问题也越来越引起人们关注,车内空气污染物主要是由甲醛、苯、TVOC(总挥发性有机化合物)等对人体有害物质构成,各污染物的浓度可由相关专业机构检测,在目前国内尚无车内空气污染物浓度限值标准的情况下,对各种不同车型、车辆的车内空气污染水平作一科学合理的分类、评价将是有意义的。
选择10辆家用小汽车,要求使用时间在3个月以内,且行驶里程在12000公里以内,没有经过内饰改装或除甲醛等处理,车辆使用者无在车内吸烟等习惯,平时没有装载其他会增加或减少车辆异味的物品。在外部空气质量和天气状况良好,室外温度20-30℃的情况下检测其车内空气中甲醛、苯、TVOC的浓度,选取样本的原始检测数据如下表:
从而得到十辆汽车车内空气污染分类为C1={1,5,7},C2={2},C3={3,6,10},C4={4,9},C5={8}。
4.5 综合评价
上述聚类结果说明当相似水平为λ=0.983,表1中汽车{1,5,7}车内空气质量相似,其特点是车内空气中甲醛、苯、TVOC的浓度都较高;{3,6,10}相似,车内苯的浓度较低但甲醛和TVOC的浓度都较高;{4,9}相似,车内甲醛、苯、TVOC的浓度都较低;而{2}甲醛、苯、TVOC的浓度都高,{8}甲醛、苯浓度较低而TVOC的浓度稍高于第三类。
计算上述各类中心(使用标准化的数据)如下:
C1={0.667,0.719,0.771},C2={1,0.94,0.063},C3={0.667,0.925,0.313},C4={0,0.043,0.668},C5={0,0.569,0}。
再计算类 C1,C2,C3,C4,C5 与最劣样本{1,1,1}的相似系数(仍用夹角余弦法),分别为:0.9982,0.8415,0.930,0.6122,0.5774。从而可知车内空气质量的优劣等次为C5,C4,C2,C3,C1。即类C1车内空气质量综合评价最差,污染最严重;而类C5车内空气质量综合评价最好,即污染最轻。
5结束语
模糊聚类分析是基于样本之间的相似性,将最相似的样本聚成一类。但不能直接实现传统意义的名次排序。通过构造最优(劣)样本,根据与最优(劣)样本最相似者为最优(劣)原则,可以确定各类的优劣名次。本文的应用实例说明该方法无需依赖其他先验信息,只需根据评价对象指标数据就可得出对象的分类和评价结果,具有一般意义。
参考文献
[1]高新波 模糊聚类分析及其应用[M].西安电子科技大学出版社,2004.
[2]罗兰星 基于基于传递闭包法的西南5城市环境质量评价分析[J].上海理工大学学报,31(3)2009:303-306
[3]冯梅 基于模糊聚类分析的教师课堂教学质量评价[J].学的实践与认识,2008,38(2):12-15.
[4]张秀梅,王 涛 模糊聚类分析方法在学生成绩评价中的应用[J] 渤海大学学报(自然科学版) 28(2) 2007.6:169-172
[5]张东生,季超等.基于模糊聚类的考试分析方法[J].电脑知识与技术5(33), 2009.11:9579-9580,9590
[6]邵峰晶 于忠清等 数据挖掘原理与算法(第二版) [M] 科学出版社2008:181-182
作者简介:赵建文(1970--)男,浙江仙居人,浙江师范大学幼儿师范学院讲师,主要从事应用数学,数据挖掘教学与研究。