论文部分内容阅读
新的时代正在兴起,复杂机器学习算法的发展以及硬件性能的指数级增长将加速新一代人工智能系统的发展,改变人们对周围世界的感知和互动方式,使人工智能可以在持续和意外变化的对抗环境中工作,并支持保障人类的安全和福祉。除了智能之外,新一代人工智能系统还需要解决至少三个挑战。首先,它们必须实时地做出反应,以支持自动驾驶和智能信息检索等新兴应用。其次,这些系统需要不断地从流数据中学习,以应对其环境的时变性。第三,当这些系统代表人类做出决策时,它们的决定需要具备可解释性。这些挑战涉及数据、模型、算法和硬件等许多层面,需要把系统、统计和优化等知识在机器学习的过程中有机地结合起来。为此,这项研究工作开展了分布式流数据分析与实时机器学习理论与应用研究。研究的策略可以概括为“一个根本,两个面向,三个层次”:“一个根本”就是在线最优化求解。流数据以在线方式提供,这意味着整个数据集不能立即获得,而是单个数据实例按顺序到达。许多传统优化方法不能继续在流数据环境下发挥作用。这项工作通过探索近似算法、自适应学习和基于自然梯度下降的二阶优化方法,来应对流数据环境中产生的三种约束(即对计算成本、查询成本的约束和复杂不等式约束)。实时机器学习的“两个面向”是指面向“特征”的和面向“模型”。”特征”的实时性是指系统实时地输入模型需要的特征数据,使模型总是可以应用最新的特征进行训练。“模型”的实时性主要通过提升模型的稀疏性来实现,强化“模型”的实时性,则可以快速捕获系统级别的全局数据变化和新生成的数据模式。这项工作从数据、算力和算法“三个层次”对实时机器学习理论与应用开展深入研究。(一)在数据层,研究的对象是高速、高维、高通量的流式大数据。(二)在算力层,为了从数据流中实时学习,高性能硬件成为必需。因此,这项工作选择“天河二号超级计算机系统”作为算力平台。然而,流计算的“弹性”本质以及用于解决它的算法都为“天河二号超级计算机系统”带来了重大的算力挑战。(三)在算法层,传统机器学习算法通常不适合实时推断,也难以从新的数据中持续学习。实时机器学习算法则需要考虑实时学习和实时推理带来的约束。研究工作的主要贡献如下:1.深入总结研究工作,建立了以在线最优化为根本,面向机器学习的“模型”和“特征”实时性要求,将数据、算力和算法相结合的系统化研究方法。2.分析并解决了分布式流数据处理中具有复杂约束的多目标资源优化配置与调度问题。为该问题设计了一种基于边际效用最大化原则的启发式的资源最优配置算法HPC2-ARS,并从理论上验证了解的质量。该算法包含一种效用函数设计机制和一种创新的标量化方法,把复杂的多目标优化问题转换成了较易求解的单目标优化问题,并提出了一种高效的弹性资源调度策略。实验证明该算法有效地提升了高维高速高通量流数据处理的实时性和稳定性。3.研究了资源配置和机器学习模型表现之间的相互作用关系。首先,聚焦于实时机器学习系统中异构数据源之间的资源分配问题,分析了求解该问题的条件,研究了多个异构数据源所消耗的资源量对模型训练效果的影响,并给出基于凸优化理论的最优解。然后,对实时机器学习系统的随机性和资源可用性建模,研究了基于马尔可夫决策过程的大规模弹性资源调度动态优化理论;为了解决其中的维度灾难问题,提出了基于近似动态规划的HPC2-ARS-D算法。实验证明,提出的方法可以准确地对实时机器学习系统的时变性进行刻画,高效地反映系统当前资源配置情况对时间累计目标函数的影响。4.在对数据流环境下的带有时间信息的用户/项目交互事件和概念漂移问题进行数学建模和分析的基础上,提出了一种深度贝叶斯推荐网络,解决了实时推荐系统中的随机性和不确定性问题。为了权衡深度推荐模型的实时性(稀疏性)、准确性和可解释性,用平均场近似理论和变分GRU在线逼近用户/项目交互事件的后验概率分布。变分GRU利用连续时间下离散事件的在线变分推断建立了贝叶斯过程与深度因子分解模型在数据流环境下的联系。同时,采用基于克罗内克分解近似曲率(Kronecker-Factored Approximate Curvature,K-FAC)的二阶方法优化深度贝叶斯推荐网络的证据下界。在多个基准数据(Benchmark)上的实验表明,基于实时数据流分析与变分GRU二阶优化的在线深度推荐网络比多个基线算法(Baseline)更能捕获随时间演化的概念漂移,提升推荐的准确率。