论文部分内容阅读
本文整理天津近年的经济数据,采用支持向量机进行数据挖掘,构建出产业结构对天津经济发展影响的模型。利用该模型,分析天津市不同产业结构的数据,预测出不同产业结构对天津自贸区发展的影响,进而对天津产业结构调整产生借鉴意义。
天津经济发展对环渤海都市圈和中国经济发展战略的实施都有着重要作用,天津自贸区的设立再次提升天津的经济地位,天津的发展在京津冀一体化系统和我国经济转型中发挥示范引领作用。因此,天津经济研究具有必要性,对天津经济发展决策具有指导意义。
近年来,国内外学者对经济预测给出了很多方法,而统计学习理论的支持向量机方法更具有代表性和深厚的理论基础。支持向量机(Support
Vector Machine,SVM)在解决小样本、高维度及非线性问题上优势明显。目前,该方法在很多领域已经得到广泛的应用,例如手写识别,字符识别等。本文通过SVM对天津近年来的经济发展数据进行处理和研究,对天津经济进行预测,理论预测结果较好地符合实际值,进而说明了该研究是有效可行的。
研究现状
随着计算机领域的快速发展和大数据的兴起,学者们运用数据挖掘方法,多角度对经济做了大量的研究。周子英等利用PCA-SVM模型对长株潭经济数据进行了验证性测试和分析,该模型预测精度显著提高。由向平将ARIMA模型、指数平滑模型、SVRg型加权组合,确定权系数的组合模型较单一模型的预测精度有所提高,但当模型个数增加时精度的增速会变缓。蒋辉提出灰色支持向量回归自适应在线模型。田丰阐述了光滑技术在SVM和TSVM中的应用,并采用正则化方法。本文针对天津的不同产业数据进行分析,构建产业结构分析模型,利用SVM的优势进行经济数据预测,并采用RBF核函数以提高预测精度。
基于SVM天津产业结构分析
(一)模型构建
为了研究不同产业对天津经济发展的影响,构建以下模型:
TJ=<产业数据集,评价指标,SVM算法,性能参数实验结果>
其中,评价指标包括:年度全社会固定资产投资及其年增长率、全社会民间固定资产投资及其年增长率、全社会新增固定资产及年增长率、城镇固定资产投资及其年增长率、新增固定资产及其增长率、资金来源合计及本年资金来源小计、国家预算内资金、国内贷款、自筹资金、企事业单位自由资金、城镇固定资产投资项目、非私营单位从业人员数及其工资总额、私营单位从业人员数及其工资总额、私营单位及非私营单位的平均工资及其增长率等。
(二)算法实现
SVM首先通过使用非线性变换将输入变换到一个高维空间,再在这个高维特征空间中求广义最优分类面,这样,核函数就能够反映高维特征空间中任意两个样本点之间的位置关系,因而对样本点的分类具有重要意义。本文采用的RBF核函数适用范围广,并具有较大的收敛域,表示为:K(Xi,xi)=exp(yllx-Xill)2
(三)预测过程
将数据集进行预处理理,并确定分类标签,执行分类和预测,得到性能参数,过程为:
1.将原始数据集进行预处理,分别形成测试集样本和训练集样本;
2.创建SVM模型,初始化参数,拉格朗日乘子和及阀值赋初值;
3.利用训练样本集建立目标函数,求解函数,得到拉格朗日乘子和以及阀值的值;
4.将参数带入估计函数中得到预测模型,用测试课本求得下不同产业的预测值并且计算函数误差,若误差小于预先设定值时,结束学习过程,否则,返回继续学习。
数据分析
(一)数据集
整理2013年天津统计局的年鉴数据,根据不同产业的划分,确定数据集。数据集的产业包括:农林牧渔业,采矿业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息技术服务业,金融业,房地产业,商务服务业,科学技术服务业,水利、环境和公共设施管理业,居民服务业,教育,卫生和社会工作,文化、体育和娱乐业,公共管理、社会保障和社会组织。
(二)实验结果及分析
采用SVM算法进行实验,求得性能参数:正确率95%,特异性50%,敏感性100%。在数据集中,预测信息技术服务业,公共管理、社会保障和社会组织对天津经济发展所起的带动作用较弱,其他产业较强。由上可见,预测结果准确度比较高,模型建立比较合理。
对于存在的误差,利用可行的技术进行聚类析,将远离预测数据的预测结果舍弃,对余下的数据进行集成,将数据包含在平均值附近正态分布区域内,来提高预测精度。
结论与展望
本文采用支持向量机方法,分析天津的经济数据及产业结构。由天津产业发展研究及其对天津经济的影响,来推动天津自贸区的发展,进而对天津的产业结构调整提出借鉴意义,具有一定的先进性。(本文受天津财经大学“大创计划”项目(2015026),天津社会科学基金项目(TJYYl5-017),教育部人文社会科学研究一般项目(14YJA630025)资助。
天津经济发展对环渤海都市圈和中国经济发展战略的实施都有着重要作用,天津自贸区的设立再次提升天津的经济地位,天津的发展在京津冀一体化系统和我国经济转型中发挥示范引领作用。因此,天津经济研究具有必要性,对天津经济发展决策具有指导意义。
近年来,国内外学者对经济预测给出了很多方法,而统计学习理论的支持向量机方法更具有代表性和深厚的理论基础。支持向量机(Support
Vector Machine,SVM)在解决小样本、高维度及非线性问题上优势明显。目前,该方法在很多领域已经得到广泛的应用,例如手写识别,字符识别等。本文通过SVM对天津近年来的经济发展数据进行处理和研究,对天津经济进行预测,理论预测结果较好地符合实际值,进而说明了该研究是有效可行的。
研究现状
随着计算机领域的快速发展和大数据的兴起,学者们运用数据挖掘方法,多角度对经济做了大量的研究。周子英等利用PCA-SVM模型对长株潭经济数据进行了验证性测试和分析,该模型预测精度显著提高。由向平将ARIMA模型、指数平滑模型、SVRg型加权组合,确定权系数的组合模型较单一模型的预测精度有所提高,但当模型个数增加时精度的增速会变缓。蒋辉提出灰色支持向量回归自适应在线模型。田丰阐述了光滑技术在SVM和TSVM中的应用,并采用正则化方法。本文针对天津的不同产业数据进行分析,构建产业结构分析模型,利用SVM的优势进行经济数据预测,并采用RBF核函数以提高预测精度。
基于SVM天津产业结构分析
(一)模型构建
为了研究不同产业对天津经济发展的影响,构建以下模型:
TJ=<产业数据集,评价指标,SVM算法,性能参数实验结果>
其中,评价指标包括:年度全社会固定资产投资及其年增长率、全社会民间固定资产投资及其年增长率、全社会新增固定资产及年增长率、城镇固定资产投资及其年增长率、新增固定资产及其增长率、资金来源合计及本年资金来源小计、国家预算内资金、国内贷款、自筹资金、企事业单位自由资金、城镇固定资产投资项目、非私营单位从业人员数及其工资总额、私营单位从业人员数及其工资总额、私营单位及非私营单位的平均工资及其增长率等。
(二)算法实现
SVM首先通过使用非线性变换将输入变换到一个高维空间,再在这个高维特征空间中求广义最优分类面,这样,核函数就能够反映高维特征空间中任意两个样本点之间的位置关系,因而对样本点的分类具有重要意义。本文采用的RBF核函数适用范围广,并具有较大的收敛域,表示为:K(Xi,xi)=exp(yllx-Xill)2
(三)预测过程
将数据集进行预处理理,并确定分类标签,执行分类和预测,得到性能参数,过程为:
1.将原始数据集进行预处理,分别形成测试集样本和训练集样本;
2.创建SVM模型,初始化参数,拉格朗日乘子和及阀值赋初值;
3.利用训练样本集建立目标函数,求解函数,得到拉格朗日乘子和以及阀值的值;
4.将参数带入估计函数中得到预测模型,用测试课本求得下不同产业的预测值并且计算函数误差,若误差小于预先设定值时,结束学习过程,否则,返回继续学习。
数据分析
(一)数据集
整理2013年天津统计局的年鉴数据,根据不同产业的划分,确定数据集。数据集的产业包括:农林牧渔业,采矿业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息技术服务业,金融业,房地产业,商务服务业,科学技术服务业,水利、环境和公共设施管理业,居民服务业,教育,卫生和社会工作,文化、体育和娱乐业,公共管理、社会保障和社会组织。
(二)实验结果及分析
采用SVM算法进行实验,求得性能参数:正确率95%,特异性50%,敏感性100%。在数据集中,预测信息技术服务业,公共管理、社会保障和社会组织对天津经济发展所起的带动作用较弱,其他产业较强。由上可见,预测结果准确度比较高,模型建立比较合理。
对于存在的误差,利用可行的技术进行聚类析,将远离预测数据的预测结果舍弃,对余下的数据进行集成,将数据包含在平均值附近正态分布区域内,来提高预测精度。
结论与展望
本文采用支持向量机方法,分析天津的经济数据及产业结构。由天津产业发展研究及其对天津经济的影响,来推动天津自贸区的发展,进而对天津的产业结构调整提出借鉴意义,具有一定的先进性。(本文受天津财经大学“大创计划”项目(2015026),天津社会科学基金项目(TJYYl5-017),教育部人文社会科学研究一般项目(14YJA630025)资助。