【摘 要】
:
许多机器学习问题都可以表示成损失函数加正则化项的形式,目前最流行的求解方法是以随机梯度下降(Stochastic Gradient Descent,SGD)为代表的随机梯度优化算法。然而,最常用的小批量或单样本的随机梯度下降是计算速度与求解精度的折衷。随机梯度下降的优势主要有两点,一是每次迭代不需要计算全样本梯度,减少了计算量;二是避免由于样本数据过大导致的内存不足问题。但是这带来的问题是引入了随
论文部分内容阅读
许多机器学习问题都可以表示成损失函数加正则化项的形式,目前最流行的求解方法是以随机梯度下降(Stochastic Gradient Descent,SGD)为代表的随机梯度优化算法。然而,最常用的小批量或单样本的随机梯度下降是计算速度与求解精度的折衷。随机梯度下降的优势主要有两点,一是每次迭代不需要计算全样本梯度,减少了计算量;二是避免由于样本数据过大导致的内存不足问题。但是这带来的问题是引入了随机样本的梯度估计与全样本梯度估计的误差,这种误差在理论分析中称为方差,为了减小方差的累积需要使用递减的步长,这会减慢梯度下降的收敛速度。研究表明,通过修改梯度估计或采样方式可以减小方差在迭代过程中的累积。为减小方差提出了一种基于集成思想的重要性采样算法(Ensemble Importance Sampling,EIS),它由多个简单采样器组成,由采样器权重确定每个采样器的贡献度,从而得出最终的采样分布。EIS可以看作一种集成框架,具有很高的灵活性,用户可以根据需要选择简单采样器的个数和简单采样器的形式。EIS可以与任意梯度优化算法结合。为展示EIS的有效性,提出了集成重要性采样的随机梯度下降算法(Stochastic Gradient Descent with Ensemble Importance Sampling,SGD-EIS)。实验中,可以直观地看到EIS起效的原因,在与其他算法的比较中取得了显著的优势。步长是限制收敛速度的主要原因之一,在实践中针对不同的样本和问题需要根据经验选择合适的步长。为解决这一问题,提出了一种自适应寻找步长的方法,称为广义超梯度下降(Generalized Hypergradient Descent,GHD),它是对超梯度下降的改进。GHD在梯度优化算法迭代的过程中及时更新步长,且只引入了少量的额外计算。由于方差减小的梯度下降可以降低方差的累积,放开对变步长的限制,所以将GHD引入到具有方差减小的递归梯度算法(Stoch Astic Recursive gr Adient algorit Hm,SARAH)中提出广义超梯度近端递归梯度下降(Prox Sarah with Generalized Hypergradient Descent,Prox Sarah-GHD)。针对非凸非光滑的复合优化问题,证明了Prox Sarah-GHD的收敛复杂度在在线设置和有限和设置下分别为O((?)-3)和O(n1/2(?)-2+n)。在实验中,Prox Sarah-GHD展示出了远超其他算法的优越性。在理论分析中,Prox Sarah-GHD需要预先估计批量大小以达到收敛保证,而实践中难以估计这个值。为进一步加速收敛和避免参数估计,提出了Prox Sarah-GHD的一个变体称为Prox Sarah-GHD-EIM,它预先定义小批量,令批量大小在迭代过程中呈指数增长。理论中证明了它的总体复杂度为O((?)-4)。在数值实验中,分析了Prox Sarah-GHD-EIM中超参数对算法的影响,结果表明算法具有鲁棒性。此外,与不使用EIM的算法相比,它在实践中更加有效。
其他文献
本文研究拟线性椭圆方程组解的正则性和退化椭圆方程的分布解的正则性.首先,考虑由N个方程组成的拟线性椭圆方程组这里 α ∈ {1,...,N}是方程指数,N≥ 2,Ω(?)Rn,n≥ 2 为有界开集,u=(u1,...,uN):Ω→RN,f是可积函数.在所有系数的椭圆型,有界性和非对角系数“蝴蝶形支撑”的条件下,给出弱解的局部和全局的正则性结果.其次,考虑如下形式的退化椭圆方程的先验估计以及分布解的
机器学习是实现人工智能的一个途径,让计算机像人类一样具备自我学习能力,根据不同需求找出相应的信息。聚类是机器学习的一个研究方向,用无监督的方式寻找相似样本并归为一类。基于深度学习的联合训练带来聚类性能的突破,其预训练的结果对后续聚类任务有直接影响。一些聚类算法在不同数据集上使用不同的网络结构代表泛化能力较差,而且聚类性能相对于分类性能仍有很大的提升空间。因此本文对基于自监督特征表示的聚类算法展开研
由于在数理经济,模糊优化,过程控制和决策论等科学领域的应用,许多学者致力于将单值测度与积分理论的结果推广到集值环境中,得到集值测度与积分理论相关知识并应用于实际生产生活中.本文对集值非可加测度与积分理论进行研究.首先提出一种新的Banach空间上的集值非可加测度概念,本文称之为弱集值非可加测度,并讨论其性质,接着给出实值函数关于该种测度的积分概念并讨论它们的性质和结构特征.主要的研究内容如下:(1
近年来随着网络平台的发展,图像、视频等数据高速增长,多模态数据的研究与应用价值愈发凸显。这些多模态形式的数据蕴涵着人类丰富的意见与情感信息,具有高度的理论研究意义与实际应用价值。然而在多模态融合策略方面,目前多数融合方法关注于融合的阶段选择或融合的模型选择,缺少完整的多模态融合框架。在多模态表示学习方面,目前多模态表示学习的方法在模型输出时往往采用特征拼接或简单的融合方式,忽略了多模态特征有效融合
异常检测(Novelty Detection)被视为单类分类任务,其目标是检测出数据集中的异常数据。随着数据规模和维度的不断增加,传统的异常检测方法面临计算可扩展性差和“维度灾难”问题。为了解决该问题,传统异常检测方法通常需要大量的特征工程,相比之下,基于深度学习的方法能够自动学习数据中的潜在特征,从而有效解决计算可扩展性差和“维度灾难”问题,有效提高检测性能。因此,基于深度学习的方法在异常检测领
属性约简是粗糙集理论中的研究热点。现有连续值数据属性约简模型的建立主要基于优势粗糙集、邻域粗糙集、模糊粗糙集理论与方法。然而连续值数据属性间不一定具有优势关系;基于邻域关系的约简算法由于属性量纲不同导致邻域半径难以统一,除此之外样本间模糊关系及邻域关系的计算代价一般来说也是较高的。为解决上述问题,本文将聚类粒化方式应用于属性约简过程中,对现有连续值数据属性约简方法进行了改进。提出了基于聚类粒化方式
长尾分布数据分类问题是目前深度学习领域研究的热门方向之一,在计算机视觉领域中被称为长尾识别。长尾分布数据的头部少数类占据了大多数数据,而尾部多数类却占据了很少的一部分数据,当深度学习模型在处理这种长尾分布数据时会偏向头部类,产生很严重的长尾效应。因此,如何解决这种长尾效应是一项很有意义的研究工作。本文的主要工作包括如下两方面:(1)提出了一种基于双向聚类的长尾分布数据分类方法,该方法首先对头部类数
随着深度学习的快速发展,卷积神经网络越来越广泛的应用到计算机视觉领域中。我们通过多步卷积、池化等操作可以实现对特征图的下采样操作,以扩大感受野并提高神经网络的提取能力。然而,在多数的计算机视觉任务里,如在目标检测、语义分割、超分辨率等领域中,对特征图进行上采样操作以保留图像的整体细节也很重要。在传统的上采样操作中,通常在原图像像素间采用插值算法填入新的像素信息。这会出现生成图像目标边缘信息误差较大
随着互联网和电子设备的快速发展,图像、文本、音频等数据正在以不可想象的速度增长,此类数据蕴含众多的信息但无标签,人工为数据标注类别信息的代价大,但是对海量数据的智能管理已然成为一种现实需求和必然趋势。图像聚类分析从数据中挖掘有代表性特征对数据进行分类,在人工智能等很多领域广泛应用,越来越受到研究的重视。现有的聚类算法普遍存在训练误差较大、聚类性能依赖特征表达能力、泛化能力弱等问题。如何设计具有较强
当面对一个分类问题时,如何从众多的可用算法中选择当下问题最适合的算法是一个具有挑战性的问题。相关研究表明分类算法的表现强烈依赖于数据本身的特性,因此人们相信更好地理解数据集对分类算法的研究发展至关重要。元学习将算法选择作为一项学习任务来解决,试图学习元特征和最佳算法之间的映射,而其核心问题在于元特征的构建,即定义哪些数据特征对算法选择最有价值。目前大部分的方法中只考虑了简单特征和统计特征,无法很好