论文部分内容阅读
迁移学习是一种利用已有知识来解决相关领域训练样本稀疏问题的方法,通过在源域上迁移相关信息来帮助目标域训练学习模型,从而弥补目标域训练样本的不足,提高目标域学习器的预测效果。然而目前的迁移学习方法大部分都集中在数据的分类问题,对于时序数据回归问题还没有较好的解决方案。时序数据的研究应用广泛,涉及气象、能源、经济等各个领域,因此基于时序数据的迁移学习也是数据挖掘研究的热点问题之一,具有较好的理论研究意义和广阔的实际应用前景。目前的风力发电控制系统都是基于理论推导的模型给出控制策略,没有考虑风机实际运行过程中与理论模型之间产生的偏移。同时,实际生产中,在真实环境下获取电机桨角、扭矩等关键参数变化的训练样本成本昂贵,造成有效的训练样本稀疏,无法获得最优的功率模型。因此,本文以风力发电领域风电机组系统辨识模型优化的相关问题为案例,结合SCADA真实数据和Bladed仿真数据,通过将真实数据中的知识迁移到理论模型中,从而可以寻找到较优的控制参数。论文主要工作包括:(1)针对风电机组系统辨识模型优化的问题,将SCADA真实风电数据作为目标域,同时引入Bladed仿真风电数据作为源域,基于迁移学习中的特征映射思想,使用主成分分析(PCA)作为特征映射,寻找两个域之间的共享低维子空间,通过选取原始数据的前维主成分来保持数据的本质信息;同时,为了最小化域之间的分布差异,将最大均值差异(MMD)作为域间距离的度量方式,通过联合最小化域之间的PCA损失和域一致性损失,来学习源域和目标域到共享子空间上有意义的特征映射。最后融合转换后的目标域数据和源域数据,在该共享子空间上使用LSTM学习基于PCA迁移的风电时序数据回归模型——PCTR(Principal Component Transfer Regression)。(2)针对PCTR模型中PCA映射只能挖掘两个域之间简单映射关系的不足,使用生成对抗网络GAN直接将源域数据映射到目标域,在生成网络和判别网络迭代博弈的过程中,不断提高域之间映射的效果,从而确保模型能学习到域之间复杂的、非线性的映射关系。此外,针对深度网络容量(capacity)大的问题,引入循环一致性约束,在原始GAN的基础上反向耦合一个相同的GAN,将伪目标域数据重新映射回源域,通过最小化原始样本与映射后伪样本之间的重构误差,进一步缩小特征映射的假设空间。最后融合目标域数据和转换后的源域数据,在目标域上使用LSTM学习基于深度迁移的风电时序数据回归模型——CYCTR(Cycle Consistency Transfer Regression)。最后,在江苏某风力发电场真实数据集上的实验结果表明,本文提出的迁移学习模型可以有效提高风电功率模型的预测精度。此外,通过引入风机的真实数据,该模型能够减小与实际运行过程之间的偏差,从而给出较优的风机控制参数。