值迭代算法相关论文
在近年来的稀疏建模研究中,由于非凸罚在诱导稀疏性方面往往比凸罚更有优势,从而非凸罚受到广泛关注。然而与凸罚方法相比,对应的......
Agent的强化学习技术是目前分布式人工智能和计算机科学技术的重要研究内容之一。强化学习是一种无导师的学习技术,能够利用不确定......
近年来,随着信息化的快速发展,用户对计算资源的需求越来越高,传统计算机在计算能力、存储能力以及便利性等方面在一定程度上制约......
边缘导向的图像插值算法(NEDI)基于协方差的局部稳定性假设和几何对偶性假设,通过自适应回归模型估计协方差系数来进行图像插值......
随着物联网的发展,大规模的数据传输增大了网络负载和数据分流时间.为了优化数据分流时间,本文在边缘计算的环境中,提出基于马尔可......
本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法.通过引入所谓即时差......
该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念,将传统的策略迭......
为了降低数据传输次数和计算量,针对离散非线性系统的最优控制问题,提出了一种基于单网络值迭代算法的事件驱动最优控制方案。首先......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
部分可观测马尔可夫决策过程(POMDP)是一种用于制定序列决策的经典模型。在该模型中,智能体做出动作所产生的效果是不确定的,对环......
本篇博士论文对离散时间马氏决策过程(discrete-time Markov decision processes, 简记为DTMDP)的一系列问题做了进一步的研究. 这......
部分可观察马尔可夫决策过程是通过引入信念状态空间将非马尔可夫链问题转化为马尔可夫链问题来求解,其描述真实世界的特性使它成......
提出了一类基于半马氏决策过程的劣化失效系统检测与维修优化模型。将位相型(PH)分布引入模型后,决策过程的状态空间发生变化,为了获得......
由于建筑具有面积大、能耗大和能耗复杂等特点,并且建筑自身是一个包含多种系统、设备相互连接的复杂非线性系统,因此一直被作为节......