论文部分内容阅读
摘要: 本文围绕葡萄酒的质量评价问题进行分析,使用秩和检验和离散系数找到更可信的质量评价结果后,采用因子分析综合评判法得到葡萄的分级。建立葡萄和葡萄酒理化指标主成分的逐步回归模型,简化影响葡萄酒质量的指标,在非严格条件下认为可利用本模型以葡萄和葡萄酒的理化指标评价葡萄酒的质量。本文模型可以推广至医药等与多元统计相关的领域。
关键词:葡萄酒评价 因子分析 主成分分析
【分类号】:TS262.6;TP183
引言
近年来,随着人们生活水平的提高,葡萄酒也越来越为大家所熟知,医学表明:葡萄的营养很高,而以葡萄为原料的葡萄酒也蕴藏了许多氨基酸、矿物质和维生素,这些都是人体必须补充和吸收的营养品。然而,市面上出售的葡萄酒质量高低不同,其所具有的营养价值也就不同,如何鉴别葡萄酒的好坏也成为人们关注的焦点。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。同时,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
1葡萄理化指标与葡萄酒质量的相关性分析
1.1基本原理
实际问题中,两个变量X、Y只能提供对应观察值:
我们也只能根据这个容量为的样本来判断变量和的相关性达到怎样的程度。
取相关系数的估计为:
这个估计称为相关系数。它能够根据样本观察值计算两个变量相关系数的估计值。
样本相关系数也有和总体相关系数类似的性质:
当时,变量和有线性关系:;且当时,,称和正相关;时,,称和负相关。和总体相关系数一样,如果,称和不相关。这时它们没有线性关系。
多数情况下,样本相关系数取区间中的一个值。相关系数的绝对值越大,表明和之间存在的关系越接近线性关系。
1.2模型的建立与求解
首先,按式(3)对各变量进行相关系数的计算。已知酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,故采用第二组品评结果作为一个变量,以酿酒葡萄的各个理化特性分别作为另一变量进行相关性分析,得出红葡萄各理化指标的相关系数。
然后,根据相关系数对变量进行降维处理。根据的指标及的指标,认为相关性较小,可以忽略。最终得出初步降维后的红葡萄剩余指标及其相关系数。
2 葡萄理化指标的聚类分析
2.1基本原理
R型聚类即对变量聚类。在变量较多且变量间的相关性较强时,可以用R型聚类法找出代表性变量,以减少变量个数,达到降维的目的。R型聚类把变量聚为几个类,同一类变量之间有较强的相关性,因此可以从中选择一个变量作为代表。
以下介绍代表性变量的选择方法:假设变量构成一个类,为选择代表性变量,首先计算变量和的相关系数:。接着,对每个变量按以下公式计算:
其中是所在类的变量个数,此处。选最大者对应的变量为代表性变量。
2.2模型的建立与求解
对于相关性分析后剩余的红葡萄理化指标,使用相关系数法和Z-得分的标准化法进行系统聚类分析,利用SPSS相关操作进行后,输出文件关于变量分类:红葡萄的理化指标被分为了12类,对于每一类我们均可以求出代表性向量。下面以第一类指标为例进行说明。首先计算变量蛋白质、固酸比和PH值之间的相关系数,根据式(2),对于变量蛋白质,有;对于变量PH值 ,有;对于变量固酸比,。由于的值最大,故取变量PH值为第一类指标的代表性变量。同理可以得到其他类指标的代表性变量。
3 基于因子分析的葡萄等级综合评判
3.1基本原理
因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
因子分析的步骤:
1)将原始数据标准化,以消除变量间在数量级和量纲上的不同。
2)求标准化数据的相关矩阵;
3)求相关矩阵的特征值和特征向量;
4)计算方差贡献率与累积方差贡献率;
5)确定因子:
设为个因子,其中前个因子包含的数据息总量(即其累积贡献率)不低于时,可取前个因子来反映原评价指标;
6)因子旋转:
若所得的个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
7)用原指标的线性组合来求各因子得分:
采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。
8)综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。 其中,为旋转前或旋转后因子的方差贡献率。
9)得分排序:利用综合得分可以得到得分名次。
3.2模型的建立与求解
首先对于葡萄酒的质量,题设中并没有给出每个样品的葡萄酒质量。因此,为了简化模型,我们以问题一种感官评价的得分来代表葡萄酒的质量。在以上分析的基础上,我们便得到了对于葡萄评价的指标矩阵。下面我们通过因子分析综合评判法给出模型的解答。
我们使用主成分法进行因子分析,利用SPSS进行相应的操作,得到主要因子的方差贡献率和累计方差贡献率。其中,前七个主要成分的累计共享率达到了83%,超过了规定的80%。所以选取此七项进行综合评判,得到主要因子得分系数矩阵并由此可得其成分分别为:
利用SPSS中可以得到主成分的得分值,再分别以七个主成分的贡献值为权重构建主成分综合评判模型:
4模型的评价与改进
因子分析可以方便的对海量数据起到降维数的作用,构造综合评价时所涉及的权数具有客观性; 在信息损失不大的前提下,极大地减少了评价工作量。模型的建立是在对样本数据进行充分挖掘的基础之上的,提高了模型的精确性。但进行数据预处理时,舍去了一些相关行较低的指标,可能降低评价指标体系的完善性。
可以采用通径分析和判别分析来进一步提高筛选的准确性和效率性,同时对筛选结果进行分析验证。可以使用神经网络来代替回归分析,有利于提高模型的准确性和广泛性。本模型可以利用到其他的多元统计问题中,如医学等领域。
5.参考文献
[1] 韩中庚,《数学建模方法及其应用》,北京:高等教育出版社,2009年6月第2版:118—122.
[2] 盛骤、谢式千、潘承毅,《概率论与数理统计》,北京:高等教育出版社,2008年6月第4版:208—214.
[3] 马莉,《数学实验与建模》,北京:清华大学出版社,2010年1月第1版:150-152.
[4] 陈杰,《MATLAB宝典》,北京:电子工业出版社,2011年11月:299-305.
[5] 李华、刘曙东、王华、张予林,《葡萄酒感官评价结果的统计分析方法研究》,中国食品学报,第6卷第2期:126—131,2006年4月。
[6] 李运、李记明、姜忠军,《统计分析在葡萄酒质量评价中的应用》,酿酒科技,总第178期:79-82,2009年。
关键词:葡萄酒评价 因子分析 主成分分析
【分类号】:TS262.6;TP183
引言
近年来,随着人们生活水平的提高,葡萄酒也越来越为大家所熟知,医学表明:葡萄的营养很高,而以葡萄为原料的葡萄酒也蕴藏了许多氨基酸、矿物质和维生素,这些都是人体必须补充和吸收的营养品。然而,市面上出售的葡萄酒质量高低不同,其所具有的营养价值也就不同,如何鉴别葡萄酒的好坏也成为人们关注的焦点。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。同时,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
1葡萄理化指标与葡萄酒质量的相关性分析
1.1基本原理
实际问题中,两个变量X、Y只能提供对应观察值:
我们也只能根据这个容量为的样本来判断变量和的相关性达到怎样的程度。
取相关系数的估计为:
这个估计称为相关系数。它能够根据样本观察值计算两个变量相关系数的估计值。
样本相关系数也有和总体相关系数类似的性质:
当时,变量和有线性关系:;且当时,,称和正相关;时,,称和负相关。和总体相关系数一样,如果,称和不相关。这时它们没有线性关系。
多数情况下,样本相关系数取区间中的一个值。相关系数的绝对值越大,表明和之间存在的关系越接近线性关系。
1.2模型的建立与求解
首先,按式(3)对各变量进行相关系数的计算。已知酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,故采用第二组品评结果作为一个变量,以酿酒葡萄的各个理化特性分别作为另一变量进行相关性分析,得出红葡萄各理化指标的相关系数。
然后,根据相关系数对变量进行降维处理。根据的指标及的指标,认为相关性较小,可以忽略。最终得出初步降维后的红葡萄剩余指标及其相关系数。
2 葡萄理化指标的聚类分析
2.1基本原理
R型聚类即对变量聚类。在变量较多且变量间的相关性较强时,可以用R型聚类法找出代表性变量,以减少变量个数,达到降维的目的。R型聚类把变量聚为几个类,同一类变量之间有较强的相关性,因此可以从中选择一个变量作为代表。
以下介绍代表性变量的选择方法:假设变量构成一个类,为选择代表性变量,首先计算变量和的相关系数:。接着,对每个变量按以下公式计算:
其中是所在类的变量个数,此处。选最大者对应的变量为代表性变量。
2.2模型的建立与求解
对于相关性分析后剩余的红葡萄理化指标,使用相关系数法和Z-得分的标准化法进行系统聚类分析,利用SPSS相关操作进行后,输出文件关于变量分类:红葡萄的理化指标被分为了12类,对于每一类我们均可以求出代表性向量。下面以第一类指标为例进行说明。首先计算变量蛋白质、固酸比和PH值之间的相关系数,根据式(2),对于变量蛋白质,有;对于变量PH值 ,有;对于变量固酸比,。由于的值最大,故取变量PH值为第一类指标的代表性变量。同理可以得到其他类指标的代表性变量。
3 基于因子分析的葡萄等级综合评判
3.1基本原理
因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
因子分析的步骤:
1)将原始数据标准化,以消除变量间在数量级和量纲上的不同。
2)求标准化数据的相关矩阵;
3)求相关矩阵的特征值和特征向量;
4)计算方差贡献率与累积方差贡献率;
5)确定因子:
设为个因子,其中前个因子包含的数据息总量(即其累积贡献率)不低于时,可取前个因子来反映原评价指标;
6)因子旋转:
若所得的个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
7)用原指标的线性组合来求各因子得分:
采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。
8)综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。 其中,为旋转前或旋转后因子的方差贡献率。
9)得分排序:利用综合得分可以得到得分名次。
3.2模型的建立与求解
首先对于葡萄酒的质量,题设中并没有给出每个样品的葡萄酒质量。因此,为了简化模型,我们以问题一种感官评价的得分来代表葡萄酒的质量。在以上分析的基础上,我们便得到了对于葡萄评价的指标矩阵。下面我们通过因子分析综合评判法给出模型的解答。
我们使用主成分法进行因子分析,利用SPSS进行相应的操作,得到主要因子的方差贡献率和累计方差贡献率。其中,前七个主要成分的累计共享率达到了83%,超过了规定的80%。所以选取此七项进行综合评判,得到主要因子得分系数矩阵并由此可得其成分分别为:
利用SPSS中可以得到主成分的得分值,再分别以七个主成分的贡献值为权重构建主成分综合评判模型:
4模型的评价与改进
因子分析可以方便的对海量数据起到降维数的作用,构造综合评价时所涉及的权数具有客观性; 在信息损失不大的前提下,极大地减少了评价工作量。模型的建立是在对样本数据进行充分挖掘的基础之上的,提高了模型的精确性。但进行数据预处理时,舍去了一些相关行较低的指标,可能降低评价指标体系的完善性。
可以采用通径分析和判别分析来进一步提高筛选的准确性和效率性,同时对筛选结果进行分析验证。可以使用神经网络来代替回归分析,有利于提高模型的准确性和广泛性。本模型可以利用到其他的多元统计问题中,如医学等领域。
5.参考文献
[1] 韩中庚,《数学建模方法及其应用》,北京:高等教育出版社,2009年6月第2版:118—122.
[2] 盛骤、谢式千、潘承毅,《概率论与数理统计》,北京:高等教育出版社,2008年6月第4版:208—214.
[3] 马莉,《数学实验与建模》,北京:清华大学出版社,2010年1月第1版:150-152.
[4] 陈杰,《MATLAB宝典》,北京:电子工业出版社,2011年11月:299-305.
[5] 李华、刘曙东、王华、张予林,《葡萄酒感官评价结果的统计分析方法研究》,中国食品学报,第6卷第2期:126—131,2006年4月。
[6] 李运、李记明、姜忠军,《统计分析在葡萄酒质量评价中的应用》,酿酒科技,总第178期:79-82,2009年。