论文部分内容阅读
随着科技的发展,信息技术已经深入人们的学习工作生活,各种信息系统积累了大量的具有时间序列特性的业务数据,这为数据科学的研究工作提供了便利的条件。由于在数据采集过程中,通信链路以及各终端设备存在不稳定性,会导致部分采集数据的异常或缺失,严重影响到数据的完整性和可用性。研究时间序列的修复和预测技术,能够有效的提高数据质量,为后续的生产和商业决策提供数据支撑。而当数据的完整性得到保证之后,则可以进一步对数据进行挖掘和分析,本文将根据总体业务和个体业务的数据信息进行匹配,提出调整方案,以实现资源配置的优化。本文主要完成了时序数据(基于负荷)的修复与预测和资源配置优化算法的研究。1)时序数据(基于电力负荷)的修复和预测本文针对异常数据修复速度快的要求,根据负荷的时序性和周期性的特点,提出了快速的线性修复算法。针对预测要求,实现了基于ARIMA模型的串行算法,并根据电力负荷特性,对数据进行划分,又实现了负荷预测的并行化。最后通过比对实验,指出线性修复法和ARIMA模型各自对于修复预测问题的优势和劣势,以及对于负荷数据而言,ARIMA模型最适合的训练天数。同时,通过预测的串行算法与并行算法的比对,验证了并行工作的有用性和适用性。2)资源配置优化方法研究本文从具体的应用需求入手,对资源配置的问题进行了数学抽象和定义,然后对该问题进行了分析,指出资源的配置是等式约束下的非线性规划问题。接下来,我们采用经典的最优化方法对问题进行了分析,指出最优化方法在多项式时间内求解非常困难,因此需要寻找其他方法。接下来,从问题定义出发,首先提出了遍历法求解,并通过讨论该方法的复杂度,指出该方法也不适于本问题的求解。然后提出了解决该问题的全局近似算法,并且对该方法做了收敛性的数学证明和复杂度分析。接下来,考虑了某些特殊的场景,又提出了局部近似算法。最后,将问题回归到数据集,首先对银行业务数据进行预处理,使其满足算法的输入要求,然后对全局算法和局部算法进行了对比检验,证明在不同的需求下,全局算法和局部算法能够高效地解决配置问题。