论文部分内容阅读
在传统模式下,电力系统实行垂直一体化的管理,电力公司垄断了电力生产的各个环节。长此以往,该模式将不利于电力行业的健康持续发展。上世纪90年代,智利率先打破电力垄断,引入市场机制。欧美等国紧随其后纷纷建立电力市场,包括美国的PJM,CaISO,NYISO,英国的NETA以及北欧的Nord pool等。如今,电力市场化已成为世界各国电力行业发展的主要趋势。已有的研究成果和实际应用表明,通过电力市场参与者之间的相互竞争,可以显著地提升系统效率,降低生产成本,提高电力服务的质量。发达国家具有市场经济的丰富经验,在运行电力市场方面具有较好的理论基础,然而南美等国的电力市场实践表明,发展中国家同样可以发展适合其自身的电力市场。近年来,亚洲国家也开展了丰富的电力市场研究工作,包括我们越南同样在积极推动电力市场。在市场环境下,参与者为获得更高的利润,总是不断优化自身的投标策略。不同的参与者一方面需要对对手的策略进行估计,另一方面对自身的市场地位进行评估,从而制定出合适的策略。然而,市场信息对于参与者而言并不完全,参与者对于自身策略的优化具有较大的难度。随着市场规模逐步扩大,市场环境变得更加复杂。如何通过一种有效的学习方法进行策略的搜索及优化,对于参与者至关重要。本文针对强化学习在电力批发市场中的应用展开研究。为了充分研究发电成员在市场环境下的竞争行为,本文围绕电力市场中发电商的报价策略展开研究,通过加强学习算法进行报价策略的优化。本文的研究内容分别在第2-6章进行了表述,主要包括如下几个方面:(1)针对批发市场进行数学建模,其内容包括批发市场的结构、运行流程、价格模式等。在该电力市场模型中,发电商仅有其自己的信息,完全没有竞争的对手的信息。参与者可以通过策略性的招投标来获得更多的利润。每次交易完成后,根据收益对当前策略进行评估,从而找到最好的策略。最佳的投标策略在市场运行中具有重要的实际意义。(2)加强学是从动物学习文献借来的术语,其更适合不确定市场环境下的市场竞争,并常用来为电力市场参与者搜寻最优策略。本文中进行研究强化学习的理论基础。包括其发展起源和RE-学习、Q-学习等方法及其改进形式。(3)将Q学习方法应用于电力供给商的市场投标。通过多次仿真实验验证该方法的可行性。(4)将Fuzzy-Q学习方法应用于电力供给商的策略学习。通过将模糊逻辑和Q学习相结合提升算法的适应能力。通过仿真实验进行验证该算法变得更灵活与应用。(5)将SA-Q学习方法应用于动态电力市场。通过退火策略和Q学习相结合提升算法的收敛能力,并通过仿真实验进行验证。本文围绕强化学习展开电力批发市场的研究,对于市场参与者优化自身策略具有重要意义。当前中国和越南对于强化学习在电力市场中的应用,已有相关学者提出,但仍缺乏深入研究。本文的主要成果在于采用不同强化学习的方法进行比较与优化。在如下几个方面具有创新性:(1)针对市场环境的信息不完全等性质,创新性地运用学习理论进行策略优化和行为特性分析;并对不同参与者投标函数的选择方法进行了分析。(2)创建了基于强化学习的电力批发市场理论模型;将ε-greedy方法和Boltzmann方法创新性地相结合应用,实现了发电商最优策略搜索。(3)在仿真建模过程中,针对不同的强化学习方法进行参数优化;在传统的Q学习算法中,参数主要采用静态常数。而在本文的模糊Q学习算法中,系数根据输出反馈进行了调整。在市场参数方面,提出了两种相关的市场力指数来评估市场状态。(4)针对不同算法的优劣进行了实用的创新的分析和比较。(5)根据实际情况,提出了一种动态电力市场模型。在模型中,发电商和负荷供给商可以在每小时动态地改变自身的报价。投标函数采用阶梯形式,从而简化了参与者的投标工作。总之,本文采用了日前批发电力市场模式,在此模型中,通过统一的定价规则来出清电力价格,ISO用直流最优潮流来确定每个节点上的发电量。在此模型中,参与者可根据其回报修改报价策略。他们的目标是通过强化学习算法实现利润最大化的目标。除此以外,我们给出了动态电力市场的学习模型。另外,在本文中,我们研究了多种强化学习算法,主要包括Q-学习,模糊Q-学习和SA-Q学习等,并将其应用到了日前电力批发市场的最优报价策略研究中。模糊Q-学习算法提供了十分灵活的参数选择空间,而SA-Q学习算法往往可以获得较快的收敛速度。我们还通过ε-greedy方法和Boltzmann方法来平衡搜索过程中的探索和利用。采用的仿真系统包括IEEE6节点电力系统及IEEE9节点电力系统和IEEE30节点电力电系统。所有的计算模型均基于Matlab环境下的MATPOWER工具包。大量的仿真实验为本文相关方法的可行性提供了可靠保障。研究中取得了一些令人鼓舞的成果,使我们课题组可以更多的参与到电力改革和智能电网研究中。