论文部分内容阅读
聚类分析可以在缺乏先验知识的情况下,根据数据对象的特征及内部结构,使用某种相似性度量对数据集进行分类来挖掘其中有价值的知识。但大多数传统的聚类算法只能够处理由单一类型属性构成的数据,比如数值型或名词型,针对混合属性数据的聚类算法相对较少。然而现实世界中存在的数据类型大多为混合型,所以针对混合属性数据的聚类算法的研究具有重要的科学理论意义和实践价值。另一方面,传统的硬聚类算法,对于类属问题,每个数据对象都明确地表示属于簇或者不属于簇。但由于自然界中模糊性存在的客观规律,在很多时候,类簇与类簇之间的界限不是非常明确,现实数据中,许多数据游离于两个概念之间,具有亦此亦彼的特性。因此探索有效的适用于混合数据的软聚类算法具有重要的现实意义。本文以基于模糊优势关系的粗糙聚类定性组合方案,混合属性数据的阴影粗糙聚类定性组合方案的研究为主线,研究适用于混合属性数据集上的软聚类算法,并探索了粗糙聚类定性组合方案在粮食产后损失分析中的应用。主要研究工作包括:(1)基于模糊优势关系的粗糙聚类定性组合算法在现实世界中,人们通常从不同粒度上考虑问题,因此客户在选择某项产品和服务时通常还需要单独考虑其中某个属性的情况。此外,产品或服务的属性评估通常是由数据序列呈现的。而已有的对混合数据处理的算法,大多都是将所有属性综合考量,通过相异性度量来划分类簇,只能找到总体最优的类簇却不能兼顾客户在某一特殊属性上较优的要求,也不易对类簇进行语义结构的分析。而定性组合方案(QRD)对不同属性粒分别进行聚类得到子类簇,这样既能给客户表示出总体最优的类簇,也能兼顾客户在某个属性上的特殊要求。同时聚类之后再进行组合也方便对类簇进行语义结构分析。然而该方案只考虑到了数值属性数据集,依然无法适用于混合属性数据的聚类分析,另外,该方案组合后的结果过于理想化,在实际应用中,数据的属性数目远多于两个,往往会产生组合后类簇碎片过多的问题。为了能够对包含数值和名词属性的混合数据进行定性组合聚类分析,并对序结构进一步进行精细描述,本文提出了一种基于模糊优势关系的粗糙聚类方案定性组合算法,并通过实例对比分析验证了算法的优越性。(2)混合属性数据的阴影粗糙聚类定性组合方案基于模糊优势关系的粗糙聚类定性组合算法虽然已可较好地应用在混合属性数据集上,但该方案是按照单个属性分别聚类之后再进行组合,忽视了按照不同属性聚类之后信息粒之间所存在的关联关系,一定程度上影响了定性组合方案的整体正确率。因此引入阴影集来对信息粒之间的连接关系进行挖掘,本文提出了一种考虑粒度层次的混合属性数据阴影粗糙聚类定性组合方案。首先按照不同属性进行阴影粗糙聚类,然后以一个属性的聚类为基准,按照其它属性聚类后各信息粒落在该属性所划分的类簇上的平均隶属度加入该属性的聚类迭代过程中,得到更加合理有效的结果,最后将所有属性迭代后得到的结果进行组合。考虑粒度层次的定性组合算法对各个属性粒之间的关系进行了挖掘,减少了信息损失,提高了算法的整体精度,通过在UCI数据集上的仿真对比分析验证了算法的有效性。(3)粗糙聚类定性组合方案在粮食产后损失分析中的应用基于前述对混合数据定性组合聚类方案的研究,探索了研究成果在粮食产后损失分析中的应用。粮食产后损失数据是典型的混合属性数据,一条数据信息可以包含原料产地、产量、存储量等多种属性,这诸多属性的值都不是无用的,它们的大小都直接或者间接地影响到损失率的高低。为挖掘影响粮食产后损失的因素,首先对粮食产后损失数据进行聚类,探究各个数据属性对于损失率的影响,从而找到主要因素,为减少粮食产后损失、提升利润率提供决策指导。