论文部分内容阅读
摘 要 本文根据相关数据,运用主成分分析及聚类分析法找出了影响移动端考研产品发展的主要因素。首先,对数据信息进行量化分析,运用Spss软件通过主成分分析法找出影响移动端考研产品發展的相关因素;然后,对这些主要因素进行层次分析进一步得出影响移动端考研产品的主要因素;最终,筛选出影响移动端考研产品的发展的主要因素为所在的城市、考研类型及在考研学习上花费的总时长。
关键词 主成分分析;聚类分析;移动端考研产品发展;影响因素
中图分类号 TP2 文献标识码 A 文章编号 2095-6363(2017)16-0158-01
移动信息技术的快速发展,移动设备的迅速普及以及人们对教育的重视程度的加深,为移动端产品的出现与发展创造了广阔的条件。如今考研教学和培训的市场发生了巨大的变化,移动互联网时代的到来,使得许多考研教学活动转移到了手机等移动互联网平台。而且移动端产品的使用人数较PC端更高,使用时长更长。所以说,合理的确定影响移动端考研产品发展的主要因素对于市场发展十分重要。
1 模型准备
量化分析时,将每条记录中的各项数据进行具体量化,本文采用聚类分析将数据经行划分。聚类分析根据“物以类聚”的思想,将各项统计指标或者变量划分为若干类,聚类分析主要分为系统聚类和动态聚类等两大类。但是,考虑到需要进行分类处理的数据多达196个,若使用系统聚类会因为样本点数量过多,计算量过大,导致最后的结果过于复杂。因此,本文采用动态聚类分析方法,也称K均值聚类分析。聚类分析的具体过程如下图1所示。
本文使用2016年各省市的(GDP,人均GDP,人口规模,城市居民收入,财政收入)等数据作为统计依据,并以最新年度的城市评价标准为划分指标,将其他类型答案划分为四类,分别对应到原有的选项,即北上广深等一线城市、二线城市、三线城市及其他。处理过程中,往往由于数据量纲的不同,不同类的数据类型差异过大,因此将数据进行数据的标准化处理就显得十分重要。
2 模型建立
本文给出聚类分析结果如表1所示。
由表1进行方差分析,各个分类各个变量在不同类间的差异都是显著的,即分为4类比较合理。在研究中并非越多越好,例如在进行回归分析时,变量间的多重共线性会导致最终得到的回归方程会存在很大的误差。因此,变量过多会导致信息的交叉重叠,各个变量间可能存在高度的相关性。因此,需要减少变量个数,即降维,采用主成分分析。因子分析的基本原理在于保证信息的最小损失的情况下,将每个原始变量分解成两个部分,一部分含有的是几个少数公共因子的线性组合,另一部分是该变量所特有的特殊因子。KMO和Bartlett球形度检验是判断数据是否适合因子分析的检验方法
之一。
下面给出因子分析结果,如表2所示。
经分析检验得KMO为0.556,表示该数据不适合进行因子分析,不能借助因子分析进行降维处理,故转而采用主成分分析进行降维处理。
3 模型的求解
主成分分析的基本原理在于保证信息的最小损失的情况下,以多个原始变量通过变换转变为若干个综合指标。变量过多会导致信息的交叉重叠,各个变量间可能存在高度的相关性。因此,需要减少变量个数,即降维,采用主成分分析。
本文模型利用Spss软件进行主成分分析,其结果如图2所示。
由图2可以看出,最终经过主成分分析筛选出影响移动端考验产品的发展的主要因素为所在的城市、考研类型及在考研学习上花费的总时长。
4 结论
本文针对移动端考研产品的影响因素所建立的分析模型,将样本数据中的“降维”具体城市用相应的几维城市代替,给模型分析和解释带来了便利。对数据信息进行了合理的量化分析,通过KMO检验可知,相比于因子分析,运用Spss软件通过主成分分析法找出影响移动端考研产品发展的相关因素较为准确。对于模型的后续改进可以结合遗传算法的全局搜索能力,在聚类分析中找到最佳分类。
参考文献
[1]姜启源等.数学模型[M].3版.北京:高等教育出版社,2003.
[2]韩中庚.数学建模方法及其应用[M].北京:高等教育出版社,2006.
[3]吾建国.数学建模案例精编[M].北京:中国水利水电出版社,2005.
关键词 主成分分析;聚类分析;移动端考研产品发展;影响因素
中图分类号 TP2 文献标识码 A 文章编号 2095-6363(2017)16-0158-01
移动信息技术的快速发展,移动设备的迅速普及以及人们对教育的重视程度的加深,为移动端产品的出现与发展创造了广阔的条件。如今考研教学和培训的市场发生了巨大的变化,移动互联网时代的到来,使得许多考研教学活动转移到了手机等移动互联网平台。而且移动端产品的使用人数较PC端更高,使用时长更长。所以说,合理的确定影响移动端考研产品发展的主要因素对于市场发展十分重要。
1 模型准备
量化分析时,将每条记录中的各项数据进行具体量化,本文采用聚类分析将数据经行划分。聚类分析根据“物以类聚”的思想,将各项统计指标或者变量划分为若干类,聚类分析主要分为系统聚类和动态聚类等两大类。但是,考虑到需要进行分类处理的数据多达196个,若使用系统聚类会因为样本点数量过多,计算量过大,导致最后的结果过于复杂。因此,本文采用动态聚类分析方法,也称K均值聚类分析。聚类分析的具体过程如下图1所示。
本文使用2016年各省市的(GDP,人均GDP,人口规模,城市居民收入,财政收入)等数据作为统计依据,并以最新年度的城市评价标准为划分指标,将其他类型答案划分为四类,分别对应到原有的选项,即北上广深等一线城市、二线城市、三线城市及其他。处理过程中,往往由于数据量纲的不同,不同类的数据类型差异过大,因此将数据进行数据的标准化处理就显得十分重要。
2 模型建立
本文给出聚类分析结果如表1所示。
由表1进行方差分析,各个分类各个变量在不同类间的差异都是显著的,即分为4类比较合理。在研究中并非越多越好,例如在进行回归分析时,变量间的多重共线性会导致最终得到的回归方程会存在很大的误差。因此,变量过多会导致信息的交叉重叠,各个变量间可能存在高度的相关性。因此,需要减少变量个数,即降维,采用主成分分析。因子分析的基本原理在于保证信息的最小损失的情况下,将每个原始变量分解成两个部分,一部分含有的是几个少数公共因子的线性组合,另一部分是该变量所特有的特殊因子。KMO和Bartlett球形度检验是判断数据是否适合因子分析的检验方法
之一。
下面给出因子分析结果,如表2所示。
经分析检验得KMO为0.556,表示该数据不适合进行因子分析,不能借助因子分析进行降维处理,故转而采用主成分分析进行降维处理。
3 模型的求解
主成分分析的基本原理在于保证信息的最小损失的情况下,以多个原始变量通过变换转变为若干个综合指标。变量过多会导致信息的交叉重叠,各个变量间可能存在高度的相关性。因此,需要减少变量个数,即降维,采用主成分分析。
本文模型利用Spss软件进行主成分分析,其结果如图2所示。
由图2可以看出,最终经过主成分分析筛选出影响移动端考验产品的发展的主要因素为所在的城市、考研类型及在考研学习上花费的总时长。
4 结论
本文针对移动端考研产品的影响因素所建立的分析模型,将样本数据中的“降维”具体城市用相应的几维城市代替,给模型分析和解释带来了便利。对数据信息进行了合理的量化分析,通过KMO检验可知,相比于因子分析,运用Spss软件通过主成分分析法找出影响移动端考研产品发展的相关因素较为准确。对于模型的后续改进可以结合遗传算法的全局搜索能力,在聚类分析中找到最佳分类。
参考文献
[1]姜启源等.数学模型[M].3版.北京:高等教育出版社,2003.
[2]韩中庚.数学建模方法及其应用[M].北京:高等教育出版社,2006.
[3]吾建国.数学建模案例精编[M].北京:中国水利水电出版社,2005.