论文部分内容阅读
随着信息时代的到来,数据的获取更加便捷,不论是在维度上或样本数目上都呈现爆炸性的增长。各大行业利用互联网快速便捷的优势不断地吸收、获取、交换着数据信息,这些数据信息能够帮助人们从不同的角度、不同方式详细地描述和理解事物,但同时也出现维度过高、信息冗余、计算困难等问题,这些问题反而容易导致对信息描述的不准确。虽然高维大量的样本数据能带给我们更多更丰富的信息,但是如何把握信息中关键的内容,如何处理和摒弃掉冗余的信息仍然是需要广泛深入研究的问题,现今已有一种处理方式即是对高维数据进行降维处理。无论是线性或是非线性的降维方法都已多种多样,其中运用较为广泛的一种方法是主成分分析(PCA)算法,它的优异之处在于无特定限制的参数以及算法简洁明了,但其本身是一种无监督的特征提取算法,不能充分考虑到标签带来的先验信息。其次是算法提取主元个数的关键步骤缺乏客观性,过多或过少的主元信息都容易使得模型精度降低,且前人对此的研究也较少。针对上述所提到的问题,本文主要研究工作如下:(1)考虑到很多研究在利用PCA算法进行降维之前未考虑特征与标签之间的关联性,即标签的先验信息,本文提出在PCA进行降维前,利用互信息(MI)来度量特征对于标签的重要性的办法,并提出按互信息值将特征重要性划分为弱、中、强三个部分,过滤掉较弱部分的特征,再进行PCA降维处理。(2)针对PCA算法中选取主元个数的累计贡献率方法判断过于主观,本文提出了改进PCA算法(IPCA),即利用平均复相关系数对主元数目递增时与原始数据的相关性进行衡量,从而辅助累计贡献率共同对主元个数的选取进行判断。(3)本文采用较长时间范围的实际个股和指数数据,及较多的共17个影响股价的因素,对上述改进前后的降维方法进行分析,利用神经网络预测器的最终预测结果对比PCA与IPCA判断出的主元个数的均方误差值的大小,从而比较PCA改进前后的差别,以及对比MI-IPCA双重降维与IPCA降维后的预测结果来判断引入互信息判断的有效性。