基于多种降维方法的金融数据统计分析

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:superheron
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
选取金融数据作为实验样本,运用多种统计方法和降维方法,首先对金融数据进行预处理,采用主成分分析、投影寻踪、LLE、MDS等4种降维方法将数据降成不同的维数,对4种方法分析,得出适宜数据的情况.进而结合decision tree、bagging、random forest、Boosting、SVM、neural network六种算法对原数据和处理后的数据进行分类,预测金融数据的涨跌趋势.同时,利用decision tree、random forest、SVM、PP、neural network五种统计方法对原数据和处理后的数据进行回归分析,预测数据的准确数值.对降维前和降维后的结果进行比较,得出结论.本文首先介绍了4种降维方法,分别为主成分分析、投影寻踪、LLE、MDS;然后介绍了7种统计方法decision tree、bagging、random forest、Boosting、SVM、neural network、projection pursuit;在上述方法的分析下,对金融数据进行一定的研究.实验共分为两大部分,第一部分是股票收盘价趋势预测和股票开盘价趋势预测,为实验一和实验二;第二部分是期货数据预测分析和股票指数收盘价预测分析,为实验三和实验四.股票趋势预测实验共选取两组数据,第一组为粤高速B、贵州茅台和农业银行的三支股票的100个数据,其中前80个数据作为训练样本,后20个数据作为测试样本,第二组数据选取上证指数、深证综指、中小板指、创业板指共600个数据,其中前560个为训练样本,后40个为测试样本.分别进行股票开盘价和收盘价趋势预测.实验过程共分为两部分,采用decision tree、bagging、random forest、boosting、SVM、neural network等6种算法,首先对数据进行直接分析,将计算后的结果与原结果进行比较,第一组实验发现SVM算法具有更优的预测性能,之后采取PCA、PP、LLE和MDS四种降维方法进行分析,结果表明相比直接对数据进行分析,降维后通过调整参数,预测精度可能会有一定的提升.在第二组实验过程中,分别对降维前后数据进行对比分析,发现boosting和neural network的精度都有所提升,SVM的效果也有部分提升.在两组降维实验后,发现PCA、PP降维后分类提升的精度比LLE、MDS好.期货数据预测分析实验中,选取期货交易市场中的黄金指数、黄金主连、动煤指数、动煤主连4组数据,指标数为43个,每组400个数据,对开盘价进行预测.首先采用decision tree,random forest,SVM,PPR,neural network 5种回归方法对数据进行直接分析,发现PPR算法效果最优,接下来进行降维处理,选用PCA、LLE和MDS三种降维方法反复进行实验,最终结果显示decision tree,SVM,neural network的三种方法结合降维预测精度得到了提升,random forest和PPR的部分精度得到了提升.在股票指数预测分析实验中,选取S&P 500,Russell 2000,Walmart,Disney四支股票的收盘价数据,在此选取850个数据作为训练样本.实验采用时间序列模型进行预测分析,对数据采用同上5种回归方法,首先直接进行回归,然后用PCA,,PP,LLE,MDS四种方法对数据进行降维处理再分析,最后与直接回归相比较.结果表明在直接分析数据有一定的误差时,可以对数据进行降维处理,分析结果会有一定的提升,并且高维数据降维后的提升比低维数据降维后的提升较好.
其他文献
目的探讨5岁以下儿童扁桃体或/和腺样体切除术前后免疫球蛋白的变化,以便更加准确地掌握切除扁桃体的适应证。方法对40例5岁以下儿童扁桃体或/和腺样体切除术前后血清中免疫
在广东省博物馆新馆工程中采用了施加预应力的部分矩形钢管混凝土悬臂整体桁架,通过在受拉杆件中施加预应力、受压杆件中浇筑混凝土,有效提高了桁架的刚度和强度,解决了悬挂
目的 研究连续性肾脏替代(CRRT)治疗中不同碳酸氢钠输注方式对危重症患者容量控制的影响。方法 60例行CRRT治疗的危重症患者,按照碳酸氢钠输注方式不同分为实验组与对照组,各
近年来,随着各种问题奶粉的出现,问题婴幼儿用品的问世,再加上医学知识的普及,母乳喂养普遍被人们所接受。但对于乳头内陷患者,如何能进行有效的母乳喂养成了乳头内陷患者最
世博会城市最佳实践区C-1场馆系大悬挑、大跨度结构。通过与框架-型钢混凝土桁架结构的对比分析,验证了选择框架-剪力墙-型钢混凝土桁架结构体系的合理性及在大悬挑、大跨度
<正>为深入学习贯彻党的十八届三中、四中、五中全会精神,探讨新形势下政务服务如何更好地促进国家治理现代化进程,中国行政管理学会2016年将召开"国家治理现代化与政务服务
胰岛素抵抗(insulin resistance,IR)和胰岛β细胞分泌功能缺陷是诱导2型糖尿病(type 2 diabetes mellitus,T2DM)发生的主要机制,而线粒体受损是参与IR和胰岛β细胞损伤的重要
立足于大数据的特征,论述了大数据将引起会计环境发生变化。并分析了现行会计流程的缺陷,对未来会计流程进行了若干设想,提出会计工作应当关注非结构化数据的收集、分析、存
垄断表现为对市场的独占,有市场垄断、自然垄断和行政垄断之分。国有垄断行业则表现为国有独资或控股,以全国性、行政性的大公司为主的行业。从理论上来看,国有垄断行业应分