论文部分内容阅读
高斯过程是一种关于函数的分布,在机器学习领域被广泛应用于回归、分类、降维等。高斯过程回归继承了贝叶斯方法与核方法的优势,但由于时间复杂度过高,难以应用于大规模数据。现有的近似方法通常借助一定数量诱导点,来提取训练样本中的关键信息。在复杂数据上,所需诱导点数量较多,难以有效降低时间复杂度。针对这个问题,本文基于分治思想,提出了一种简单高效的近似模型,称为“重叠局部高斯过程”。方法首先将训练样本集递归划分,构建一棵三叉树,其中兄弟节点所包含的样本存在交集,交集中的样本起到诱导点的作用,可以构建相邻区域间的依赖关系。然后用每个叶结点所包含的样本建立局部高斯过程回归模型,父节点的边缘似然和预测分布可通过组合子节点的计算结果来近似,从而降低计算量。理论分析表明,对于N个训练样本,近似模型训练和预测的时间复杂度均为O(Nt),其中t与交集的大小相关,通常介于1与2之间。为进一步发挥层次诱导点的作用,本文将诱导点看作近似模型的参数,通过变分推断的方式优化每层诱导点的位置以及对应函数值的分布。优化后的诱导点可以更高效地构建区域间的依赖关系。同时,近似模型的边缘似然以及预测分布依然可以递归分解,以降低时间复杂度。理论分析表明,对于N个训练样本,如果每层诱导点数目为这一层样本数目的α次方,最终训练时间复杂度可以降为O(N3α)。