【摘 要】
:
受限玻尔兹曼机是一种随机神经网络生成模型,广泛应用于特征降维、协同推荐等任务中。近年来,以受限玻尔兹曼机为核心结构单元的深层信念网络、深层玻尔兹曼机等深层神经网络模型已成为一类重要的深度学习模型,在手写体数字识别、图像识别等任务中均获得了重要的进展。但是,目前常用的受限玻尔兹曼机学习算法对比散度(Contrastive Divergence,CD)是一种近似算法,其收敛性、学习速度、学习性能等理论
论文部分内容阅读
受限玻尔兹曼机是一种随机神经网络生成模型,广泛应用于特征降维、协同推荐等任务中。近年来,以受限玻尔兹曼机为核心结构单元的深层信念网络、深层玻尔兹曼机等深层神经网络模型已成为一类重要的深度学习模型,在手写体数字识别、图像识别等任务中均获得了重要的进展。但是,目前常用的受限玻尔兹曼机学习算法对比散度(Contrastive Divergence,CD)是一种近似算法,其收敛性、学习速度、学习性能等理论和应用问题虽然被越来越多的研究者所关注,但是还存在很多问题需要进一步研究。本文针对这些问题展开分析研究,提出了算法新的收敛条件以及改进的算法。具体而言,本文的主要贡献如下:推导出了 CD算法与真实对数似然梯度之间的关系,证明了 CD算法是对数似然梯度有偏差近似的结论;推导出了持续对比散度(Persistent Contrastive Divergence,PCD)算法与真实对数似然梯度之间的关系,通过对PCD算法公式的理论推导得到了与CD算法类似的结论。进而对两种方法的近似偏差和近似误差进行了理论分析,近似偏差是一趋向于零的项,近似误差不仅含有近似偏差项,而且还含有一期望为零的随机项,分析结果推广了 Bengio和Delalleau(2009)的结论。提出了一种带混合误差的梯度学习算法,为从梯度学习角度研究CD算法的收敛性提供了一个有效的框架。混合误差是确定误差和随机误差的混合。进而重点研究了目标函数的梯度是Lipschitz连续的情况下带混合误差的梯度学习算法的收敛性,给出了带混合误差梯度学习算法的收敛条件,收敛条件主要对学习率、误差项等进行了约束。基于带混合误差的梯度学习算法收敛条件,研究了 CD算法的收敛性并给出了 CD学习算法的收敛条件;在给定有效明确的学习率时,得到了一种更为简洁的收敛条件;特别给出了隐藏变量和可视变量取有限个数值条件下受限玻尔兹曼机CD算法的收敛条件,给出并证明了为保证CD算法收敛Gibbs抽样步数和学习率应满足的关系,仿真实验结果进一步验证这种关系。提出了一种新的受限玻尔兹曼机学习算法-----平均对比散度(Average Contrastive Divergence, ACD)算法,该算法直接估计 CD 近似的期望(Expectation of CD, ECD),ECD近似对数似然梯度的近似误差小于CD的近似误差,CD的近似误差不仅包含ECD的近似误差还含有一项随机误差。本文进一步证明了在一般情况下,ACD算法近似对数梯度的近似误差以概率1小于等于CD算法的近似误差,也即是说,ACD算法能比CD更好地近似对数似然梯度。对ACD算法进行了模拟数据和真实数据实验分析。在模拟数据实验中本文考虑了一个含有一个可视节点和一个隐藏节点的RBMs和一个含有12个可视节,点和10个隐藏节点的RBMs。对于真实数据考虑了 MNIST数据任务。实验结果与理论分析相一致,实验结果表明,与CD和PCD算法相比,ACD学习算法的近似误差更小,性能更好且收敛更为平稳。
其他文献
在不同的领域中,研究者通常应用非线性发展方程来描述相关领域的非线性现象。从理论层面上探索各类非线性问题,最直观的方法就是得到对应非线性发展方程的解析解。本文的主要内容是通过研究光学、流体力学以及凝聚态物理等诸多领域中的非线性发展方程,讨论连续与离散物理模型中的畸形波、孤子、lump波和周期波等不同的非线性现象。本文的主要安排如下:第一章简要介绍以孤子、畸形波和lump波解为代表的非线性波的研究进展
进入21世纪以来,复杂网络科学在各个科学领域都受到了广泛关注。复杂网络的相关概念为人们认识客观系统复杂性提供了一个切入点,并对复杂系统建模提供了坚实的基础。同时,基于它发展起来的一系列方法也为大家分析和控制复杂系统提供了有力的工具。目前,复杂网络领域中有两个方面尤为受大家关注:其一是网络结构对于系统的功能和动力学行为的影响,即从结构到动力学输出的所谓“正问题”。特别是当简单的动力学单元通过复杂的结
随着移动互联网高速发展,传统的网络管理技术在性能管理以及安全管理领域的发展相对滞后,成为了移动互联网发展的瓶颈。因此,针对移动互联网的网络管理技术的研究具有十分重要的理论意义和应用价值。本文针对性能管理中的用户感知质量(Quality of Experience,QoE)评价准确性的问题、安全管理中的有效构建病毒检测模型问题以及性能管理中的有效分析LOG日志问题等三个大方面展开了深入的研究。首先,
在人们的日常沟通交流中,作为一种无声的表现形式,人脸表情具有强大的表达能力。作为比人脸表情更为客观的表述方式,面部活动单元描述的是由于人脸肌肉拉扯而反映在面部的区域变化。Facial Action Coding System (FACS)系统将这一面部活动单元简称为Action Unit(AU)。在AU检测任务中,有两个非常重要的问题,一个是结构化的区域学习,另一个是多标签学习。在结构化区域学习研
各种移动互联网业务为移动用户提供更加极致的用户体验,如虚拟现实、超高清3D视频、移动云雾等,同时这些业务也对高速传输提出了迫切的需求。然而,可用的频谱资源是有限的,按照现有的通信理论和技术框架,很难达到未来无线通信超大连接数、超高速率、超高可靠性、超低时延的要求,因此迫切需要在高频谱效率方面有突破性进展。在此背景下,李道本教授创造性地提出了具有颠覆性创新的重叠X 域复用(Overlapped X
随着移动互联网的发展,社会媒体(social media)已经成为人们获取信息、交换信息的主要场所,分析理解这些多模态社会媒体数据具有广泛的应用需求和应用价值。社会媒体数据呈现出底层特征异构、高层语义关联的特性。一方面,单一模态描述力不足,不同模态数据提供了不同层次的语义信息,并且互为补充,需要有效组织多种模态的数据,以真正反映社会媒体内容。另一方面,多模态数据处于异构特征空间,不同模态间的数据关
随着计算机视觉领域研究的深入,对象类图像分割(也称对象分割)逐渐成为近年来图像分析、计算机视觉领域研究的重要问题之一,并不断推动和促进互联网搜索、智能家电、智能交通和自动驾驶汽车等相关领域的技术和产业的发展。本论文主要依据贝叶斯理论并结合随机场模型,研究基于有监督的非参数化的对象分割模型及其算法。本论文的主要内容和创新点主要有以下几个方面,1.提出了一种新的基于分层狄里克雷过程的非参数化判别模型来
虚拟计算环境建立于开放的网络基础设施之上,通过汇聚互联网络中的计算资源、存储资源、网络资源等实现泛在、智能的公用化计算平台。作为一种新的实现形式,虚拟计算旨在为用户提供方便、快捷和有效的应用环境,为应用提供和谐、高效、可信的一体化服务支撑。与传统计算环境不同,公用环境网络资源的无序增长、高度自治和异构等特性,以及海量应用呈现出复杂、难以预知、多样等趋势,这些因素直接影响了虚拟资源与应用任务之间的精
云计算在给人们生活带来福利的同时,其自身的资源丰富、泛在接入等特性也容易被攻击者滥用以扩展其攻击能力和攻击范围。与普通网络环境中的网络攻击相比,攻击者可以更容易获取云资源对云外空间发起DDoS、Spamming等多种攻击,而且可以轻易地规避追责,这给云计算的可控性带来了严峻的挑战。云计算的不可控一方面伤害了云服务提供商的信誉,另一方面,也极大地损害了傀儡云租户以及攻击受害者的利益,因此,研究有效的
随着互联网的不断发展和普及,越来越多的用户可以通过互联网享受到各种各样的服务。然而用户对于网络服务质量的要求越来越高,他们需求的服务种类也越来越丰富。传统的互联网面临着越来越严重的僵化问题,无法满足用户不断膨胀的服务需求。覆盖网络作为改善传统互联网的重要手段,具有在不改变原有网络的前提下提供新型网络功能的特性。因此,覆盖网络常常被部署在传统网络上,用来提供各种各样的服务,例如对等网络服务、组播服务