大规模数据下广义线性问题求解算法性能研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ciha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广义线性问题是一类在统计机器学习中非常重要的随机优化问题。它以期望风险最小化的形式展现,可以代表许多回归与分类任务中模型的参数优化过程,因而具有很大的研究价值。由于现实场景中模型输入变量与输出变量的联合分布未知,期望风险最小化问题需要转化为经验风险最小化问题求解。然而,求解经验风险最小化问题的经典迭代算法在大规模数据下(指数据量远大于数据维度,数据维度远大于1)算量大、效率低,导致时间成本偏高。在这种背景下,我们在第三章介绍了一种针对广义线性问题新的求解算法:SLS算法。在大规模数据下此算法能够在精度未有显著降低的基础上,大幅减少先前算法的计算量。我们给出了该算法的理论基础,并详细介绍了算法步骤。该算法是一个两步算法,其中第二步与先前算法一样,是需要经过多步迭代完成的。我们针对迭代步骤,对SLS算法与先前算法做了一个时间复杂度的比较,可以看到,SLS算法的时间复杂度明显优于其它的算法。SLS算法在大规模数据下的效率值得称赞,但仍有继续提升的空间。其算法步骤一的内容是对最小二乘估计值进行计算,但估计值的计算在大规模数据下的时间复杂度较大,会拖慢整个算法的效率。针对这个问题,我们运用基于子采样的快速最小二乘法减少这部分的计算量,该方法在本文的第四章中介绍。这种方法从全体数据中按照一定的比例抽取一小部分数据(简称子采样),然后使用被抽取的数据计算协方差,以达到削减最小二乘计算量的目的。作为快速最小二乘法的集中显现,我们介绍了三种快速最小二乘估计量:(1)全子采样估计;(2)协方差子采样估计;(3)Uluru估计,作为原始最小二乘的替代品进行更为快速高效的运算。我们比较了线性回归场景下快速最小二乘与普通最小二乘的时间复杂度和误差界,从理论上肯定了快速最小二乘法对计算效率的提升。为了清晰快速最小二乘法对SLS算法的实际优化效果,第五章中我们以误差、运行时间为指标,对三种被优化过的SLS算法:FS-SLS法、CovS-SLS法、Uluru-SLS法,以及原始SLS算法进行了比较。在模拟数据部分,我们依次在线性回归模型、二元逻辑斯蒂回归模型、泊松回归模型场景下对各算法性能进行比较,先后讨论输入数据从多元正态分布、伯努利分布中抽取的情况,子采样比例从集合{0.004,0.008,0.011}中选取。研究发现,线性回归下,FS-SLS法、Uluru-SLS法在误差不显著降低的前提下,可明显降低SLS法的运行时间,其中FS-SLS法的运行时间为SLS的68.2%,Uluru-SLS的运行时间为SLS的76.1%;二元逻辑斯蒂回归下,当输入变量各分量间不相关时,随着数据量和数据维度的上升,FS-SLS法、Uluru-SLS法的误差逐渐向SLS的误差靠近,且运行时间相对SLS明显降低。特别地,当输入数据从伯努利分布中抽取时,FS-SLS的运行时间仅为SLS的47.7%,Uluru-SLS的运行时间为SLS的49.9%;泊松回归模型下,且输入变量各分量间存在一定相关性时,CovS-SLS法的误差相对最小,且运行时间为SLS的68.6%。在实际数据部分,我们使用UCI机器学习资源库中的Covertype数据集建立泊松回归模型预测森林覆盖植被的类型,子采样比例为0.15。研究发现,使用Uluru-SLS法预测的均方误差相对SLS法没有显著降低,且运行时间为SLS的84.4%。我们总结结论如下:当子采样比例从集合{0.004,0.008,0.011}中选取时,FS-SLS法、Uluru-SLS法在线性回归、二元逻辑斯蒂回归且输入变量各分量间不存在相关性时,可实现对SLS算法效率上的优化;CovS-SLS法在泊松回归情形且存在相关性时,可实现对SLS算法效率上的优化。当子采样比例为0.15时,Uluru-SLS法在泊松回归情形可实现对SLS算法效率上的优化。
其他文献
耀变体是活动星系核的一个特殊而重要的子类。由于其喷流与视线方向的夹角很小,耀变体有很多极端的观测性质,而且发现低能峰频与射电/光学/X射线波段谱指数有关,即是说峰频可以通过三个波段的有效谱指数来估算。但是这种关系在低能峰频比较好,而对于峰频比较高的源估算差别很大。为了进一步分析这个问题,本文中选取了68个费米耀变体的多波段数据,计算了它们的能谱分布,研究了它们的同步辐射峰参数和宽波段谱指数之间的关
随着化石能源的消耗和环境的污染,生物质能源的研究受到国内外广泛的关注。农业废弃物作为我国主要的生物质资源,其清洁高效转换技术的开发对于推进能源结构的多元化、加快经
分类的目的在于根据其特征将数据“分门别类”,在数据挖掘中的研究中备受人们的关注。分类问题包含了两个基本过程:学习和分类。在学习的过程中,利用有效的学习方法,从已知类别的训练数据集中学习一个分类器;在分类的过程中,使用学习得到的分类器,对类别未知的数据进行分类。由此可见,分类的准确程度依赖于分类器的准确性,所以分类的重点在于分类器的学习。支持向量机(SVM)和距离加权判别(DWD)是两个非常常用的分
振动能量采集技术可将环境中普遍存在的机械振动能转化为电能,为低功耗的微电子器件提供可再生能源。相比于传统电化学电池,该技术可避免某些特殊场合(如体内医疗器件)由于电
近年来,随着移动电子技术的快速发展,柔性供能器件越来越受到人们的青睐,纤维电极更是组装柔性供能器件的关键,然而高性能纤维电极的制备仍然面临着巨大的挑战。二维纳米片因
硒化钼材料因其电负性小,原子尺寸大以及类石墨结构,便于离子的传输,有利于电池体系中氧化还原反应的进行,是电池材料研究热门之一。近来锂离子电池因储量、成本等因素限制了
目的:哮喘是儿童最常见的慢性疾病之一,调查显示:婴儿期患呼吸道合胞病毒(RSV)或鼻病毒(RV)感染是儿童期过敏性哮喘发生的最主要危险因素,机制尚不清楚;RSV是婴幼儿下呼吸道感染
改革开放以来,江西省经济建设取得了巨大的成就。尤其是近20年,江西经济增长更是实现了质的飞跃。2005-2016年间江西省GDP年均增长率达到了12.39%,而作为推动经济增长重要“引擎”之一的公共基础设施投资在经济增长的过程中发挥了不可替代的作用,且再次引起了政策制定者与经济学界的重视。作为政府公共支出中的重要部分,公共基础设施投资的增加不仅能够正面促进国民经济增长,还具有正外部性和规模经济特性
古细菌(Archara)又被称之为古生菌。它们与原核生物既有很多的相似之处,同时也拥有真核生物的某些特征。古菌分两大类,广古菌(Euryarchaeota)以及泉古菌(Crenarchaeota)。古嘌苷(Archaeosine,G+)是在古菌tRNA中被发现的一种高度修饰的核苷。经研究发现,在泉古菌中参与古嘌苷合成途径中的QueF-like酶与细菌的QueF酶具有同源性。人们在细菌中克隆了 Qu
二部竞赛图是一类重要的有向图,关于二部竞赛图已经有了许多的结论.本文主要研究了二部竞赛图的以下几个结论:对于弧着色二部竞赛图,研究了它有彩虹路的核的充分条件,计算了强连通的二部竞赛图中正常着色4-圈的个数;对于没有着色的二部竞赛图,刻画了它的控制图,计算了控制图的一些相关参数,并将结论推广到一般有向图得出了控制图与竞争图的关系.为叙述方便,设D(X,Y)是二部竞赛图,X,Y是它的两个部集.本文共分