论文部分内容阅读
广义线性问题是一类在统计机器学习中非常重要的随机优化问题。它以期望风险最小化的形式展现,可以代表许多回归与分类任务中模型的参数优化过程,因而具有很大的研究价值。由于现实场景中模型输入变量与输出变量的联合分布未知,期望风险最小化问题需要转化为经验风险最小化问题求解。然而,求解经验风险最小化问题的经典迭代算法在大规模数据下(指数据量远大于数据维度,数据维度远大于1)算量大、效率低,导致时间成本偏高。在这种背景下,我们在第三章介绍了一种针对广义线性问题新的求解算法:SLS算法。在大规模数据下此算法能够在精度未有显著降低的基础上,大幅减少先前算法的计算量。我们给出了该算法的理论基础,并详细介绍了算法步骤。该算法是一个两步算法,其中第二步与先前算法一样,是需要经过多步迭代完成的。我们针对迭代步骤,对SLS算法与先前算法做了一个时间复杂度的比较,可以看到,SLS算法的时间复杂度明显优于其它的算法。SLS算法在大规模数据下的效率值得称赞,但仍有继续提升的空间。其算法步骤一的内容是对最小二乘估计值进行计算,但估计值的计算在大规模数据下的时间复杂度较大,会拖慢整个算法的效率。针对这个问题,我们运用基于子采样的快速最小二乘法减少这部分的计算量,该方法在本文的第四章中介绍。这种方法从全体数据中按照一定的比例抽取一小部分数据(简称子采样),然后使用被抽取的数据计算协方差,以达到削减最小二乘计算量的目的。作为快速最小二乘法的集中显现,我们介绍了三种快速最小二乘估计量:(1)全子采样估计;(2)协方差子采样估计;(3)Uluru估计,作为原始最小二乘的替代品进行更为快速高效的运算。我们比较了线性回归场景下快速最小二乘与普通最小二乘的时间复杂度和误差界,从理论上肯定了快速最小二乘法对计算效率的提升。为了清晰快速最小二乘法对SLS算法的实际优化效果,第五章中我们以误差、运行时间为指标,对三种被优化过的SLS算法:FS-SLS法、CovS-SLS法、Uluru-SLS法,以及原始SLS算法进行了比较。在模拟数据部分,我们依次在线性回归模型、二元逻辑斯蒂回归模型、泊松回归模型场景下对各算法性能进行比较,先后讨论输入数据从多元正态分布、伯努利分布中抽取的情况,子采样比例从集合{0.004,0.008,0.011}中选取。研究发现,线性回归下,FS-SLS法、Uluru-SLS法在误差不显著降低的前提下,可明显降低SLS法的运行时间,其中FS-SLS法的运行时间为SLS的68.2%,Uluru-SLS的运行时间为SLS的76.1%;二元逻辑斯蒂回归下,当输入变量各分量间不相关时,随着数据量和数据维度的上升,FS-SLS法、Uluru-SLS法的误差逐渐向SLS的误差靠近,且运行时间相对SLS明显降低。特别地,当输入数据从伯努利分布中抽取时,FS-SLS的运行时间仅为SLS的47.7%,Uluru-SLS的运行时间为SLS的49.9%;泊松回归模型下,且输入变量各分量间存在一定相关性时,CovS-SLS法的误差相对最小,且运行时间为SLS的68.6%。在实际数据部分,我们使用UCI机器学习资源库中的Covertype数据集建立泊松回归模型预测森林覆盖植被的类型,子采样比例为0.15。研究发现,使用Uluru-SLS法预测的均方误差相对SLS法没有显著降低,且运行时间为SLS的84.4%。我们总结结论如下:当子采样比例从集合{0.004,0.008,0.011}中选取时,FS-SLS法、Uluru-SLS法在线性回归、二元逻辑斯蒂回归且输入变量各分量间不存在相关性时,可实现对SLS算法效率上的优化;CovS-SLS法在泊松回归情形且存在相关性时,可实现对SLS算法效率上的优化。当子采样比例为0.15时,Uluru-SLS法在泊松回归情形可实现对SLS算法效率上的优化。