论文部分内容阅读
商业公司的金融平台往往拥有千万乃至上亿位服务会员,公司的金融业务场景每天必然会涉及大量的资金流入和流出,面对如此庞大的金融数据,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况显得尤为重要。但金融数据的变动往往受社会,政治,经济,重大事件等多方面因素影响,数据趋势不稳定而且包含多噪声,给资金流量的预测带来了困难。本文以金融平台用户的资金流量预测为研究背景,旨在构建一个准确、有效的资金流入流出的预测模型,以最大程度上贴近资金流量的真实值,便于资金管理。本文的主要研究内容与成果如下:1.本文针对资金流入流出数据集初始特征不明显的特点,利用特征抽取方法挖掘出相关特征,并采取特征选择策略选出最优特征子集。主要是从时间、用户、利率三个不同角度构造与目标值相关的多个特征,再利用皮埃尔相关系数法进行初步筛选出最为相关的特征。随后用特征选择策略进一步筛选,剔除次相关特征和冗余特征,形成最优特征子集。实验结果表明,特征抽取方法所选的特征子集对不同回归算法的预测效果的影响不同,在最终申购值的12列特征、赎回值的10列特征时达到最佳子集,对大多数不同的回归算法可以得到较好的预测效果。因此可以确定此特征子集作为下一步算法预测的最优特征子集。2.为解决数据集不稳定,多噪声的问题,采用分步回归算法对特征子集进行训练学习,提高回归预测准确率。本文提出的是两步特征预测方法,即单步特征预测是运用灰度预测、时间序列算法对未来时间的未知特征进行预测,将预测的特征添加到未来时段的已知特征子集中。随后结合BP神经网络对所有特征集合进行训练建模,得到最终的预测结果。将该算法与集成学习方法对比,运用基于Adaboost的梯度提升回归树和基于Bagging的随机森林回归算法分别对数据集进行训练。由实验结果分析,发现两步特征预测算法较其他算法减小了预测误差,部分算法比集成学习方法的预测效果更佳。3.本文对离散类型的特征子集进行one-hot稀疏编码,考虑因子分解机算法在处理稀疏数据集时作用显著,运用该算法进行回归预测。由于因子分解机算法可以较好地表达变量间的相互作用,相当于在原有特征变量的基础上还增加了二次交叉特征,更好地刻画数据集的特点。此外,因子分解机的算法复杂度不太高,且运行效率高。实验表明,因子分解机算法在一定程度上可以提高资金流入流出量的预测准确率。