论文部分内容阅读
数据预测与分类是数据挖掘领域非常重要的研究课题,长期以来受到了广泛的关注。数据预测与分类理论是管理科学、经济、数学、计算机等不同学科相互交叉融合的结晶,并已经被广泛应用于能源价格市场分析、金融市场价格预测和风险控制、生物信息识别、商务智能客户行为分析等众多领域。近年来,随着信息技术、互联网技术的迅猛发展,云计算、大数据分析的逐步成熟,复杂数据预测与分类研究充满了机遇与挑战,一方面,随着上述新兴技术、产业的发展与推广,大量实时在线数据的快速收集得以实现,以数据预测与分类为代表的数据挖掘技术将在更多的领域中发挥更大的作用。另一方面,从数据维度、数据类型以及数据体量等不同层面来看,数据对象正变的越来越多样化、复杂化,这极大的增加了精准化和精细化挖掘的难度,同时也从知识获取的准确性、合理性、可靠性以及实用性等多个方面对数据预测与分类研究提出了更高要求。本文在对国内外数据预测与分类有关基础理论、实现方法和建模策略进行梳理和总结的基础上,重点从数据的维度复杂性、频域特征复杂性、多源信息识别与匹配三个方面出发,紧密围绕数据预测与分类的关键问题,以电力系统负荷数据、电力市场价格数据为主要研究对象和案例,对复杂数据预测与分类问题展开研究。本文的主要研究内容及创新点总结如下:(1)提出了一种基于相似性测度的半参数回归概率密度预测框架,系统性分析了传统数据预测方法的适用范围及存在的问题。在此基础上,针对研究对象的多源相关性特征,构建了基于非参数修匀的半参数回归模型,同时结合Bootstrap概率区间估计进行分析。其次,针对所选择的多影响因素指标与研究对象之间作用机制难以确定的问题,结合相似性测度、因子分析以及因果关系检验等方法,给出了一种规范化的指标变量提取与识别策略。通过实验验证所提出预测框架的有效性,进而为深入研究不同指标变量与对象数据之间的复杂建模机制提供了借鉴。(2)提出了一种基于数据降维的分段可加半参数回归概率密度预测框架,针对数据的周期性、多维多粒度波动特性,受到可加建模思想的启发,提出了基于分段可加的半参数回归模型,并结合Bootstrap概率区间估计进行分析。为保证样本外预测的可行性和合理性,基于Bootstrap重采样技术对气象数据的未来趋势进行了有效模拟。该数据预测框架引入了可加建模思想对数据作降维度处理,并结合指标变量筛选与匹配方法从而完成概率分布建模,给出了一种可行的大跨度外延预测方法,同时提高了数据预测在电力需求分析中的实用性和鲁棒性。(3)提出了一种基于特征提取的半参数回归概率密度预测框架,针对数据的周期性、多频域特征混叠特性,基于EEMD频域分解方法对原始序列进行多尺度分析,结合频域特征选择与识别方法确定原始序列的特征信号和随机信号,并对不同频域信号进行重构。结合正交最小二乘估计、Bootstrap概率区间估计,构建了非参数修匀策略的半参数回归模型。基于所提出的模型对不同特征成分和趋势成分分别建模并集成预测。该数据预测框架引入了频域分析方法对数据作降维度处理,通过合理的筛选特征信号和趋势信号并进行概率分布建模,为有效分析具有复杂趋势融合特征的非平稳时间序列数据提供了一种新思路。(4)提出了一种基于特征选择和支持向量机的高维数据分类框架,针对连续型数值预测方法用于非平稳、极端波动趋势分析时容易失效的问题,基于数据分类的思想将传统的数据类别看作是描述对象数据变化的“概率空间”,并增加对象数据的所属类别及类别范围从而将区间预测转化为模式分类问题。通过融合Filter和rapper两种不同特征选择思路对SVM进行改进,给出了基于多分类的SVM-RFE-MRMR分类方法,并结合PCA-DP时间序列分割等方法,从模式判别的角度给出了一种复杂数据预测新框架,进而为高维数据波动规律分析、非平稳高频波动数据预测等问题的研究提供了新思路。