论文部分内容阅读
近来深度学习已引起AI,计算机视觉,语言处理等多个领域研究人员的关注。本质上讲,序列到序列结构(例如递归神经网络(RNN)和卷积神经网络(CNN))在检测,事件预测和预报等任务中已得到广泛应用。从大规模传感器数据网络,众多工业,环境传感器以及网络空间生成的数据对流的可用性以及相关的高效且可扩展的算法提出了越来越高的需求。这类算法可以自动分析这些数据,检测并标记异常数据,预测感兴趣的事件,甚至预测未来需求。理想情况下,新提出的模型在训练和测试上应保证快速有效的收敛。因为高维数据流中的每个维度可能包含各自独立的时间序列。所以,成千上万个不同的数据流可能形成庞大的,不断发展的数据流,为这类数据的处理带来了新的技术挑战和机遇。首先,流分析的一项基本功能是以无监督的方式对每个流进行建模,预测和异常行为检测。其次,早期的异常检测,事件预测和长程预测很有价值,但是在实践中可能难以可靠地执行,因为程序约束要求系统实时而非批量化处理数据。第三,流数据固有地表现出概念漂移,需要算法的不断学习适应。第四,实践中大量独立流需要完全自动化的框架。在这种情况下,快速演化数据的大体量和不确定性给检测和预测带来了挑战。这使得在测试和训练时充分考虑计算速度和检测与预测的准确性成为一项复杂的优化任务。最后,不考虑模型维护和为了及时处理而演化流所需的内存空间而在具有数百万个指标的时间序列上训练模型实际上是不可行的。训练时间一直是深度学习的瓶颈之一。同样地,用于检测和预测的算法必须强大,才能妥善处理不可避免的数据噪声;必须可扩展,才能有效处理大量输入;必须自动化,才能最大程度地减少在检测和预测中人工干预所带来的昂贵成本。在解决和缓解上述突出问题的过程中,本文的工作重点是加速深度学习,通过发明新的模型,规避现有方法的缺点,从而开发新颖有效的算法,解决上述长期存在的问题。首先,本文使用概率混合顺序框架部署一个数据的随机子空间,以准确有效地利用给定多维数据流中的全局模式,并在特征演化的数据流中执行任何时间的检测、事件预测和长期预测任务的本地推断。具体而言,我们提出的检测,事件预测和长期预测框架具有全局和子空间思维能力,其中包括随机推理,逻辑推论以及处理经过良好校准的预测不确定性估计,这显然超出了常规深度学习框架的能力。其次,在提升算法速度和效率的同时,我们还提出了用于改善深度学习框架泛化能力的技术。具体而言,本研究应用端到端深度贝叶斯神经网络架构,结合概率分位数回归(QR)和全局随机子空间推理方法,对高维特征演化数据流中检测和预测问题进行建模。第三,由于高维特征数据流具有不断演化的特性,我们无法了解数据的所有内容,而且对每个数据流(或整个数据集)都训练一个预测模型是不切实际的。因此我们提出的模型应该能够通过校准良好的原则不确定性估计来预测我们不知道的内容。第四,我们通过使用(ⅰ)随机QR来处理各种因素,例如所使用算法的差异性,所使用的各种数据集的差异性和随机性以及残差预测误差的差异性等。该随机QR对离群值具有鲁棒性,且不需要对数据分布进行假设;(ⅱ)RNN长期-短期记忆(LSTM)的变体,能够在学习过程中很好地处理消失和爆炸的梯度问题,从而能够从较早的时间步向较晚的时间步传递较长序列的信息;(ⅲ)CNN,通过在潜在表示学习中提取关键特征来减少信号方差,以实现更好的输出分位数预测。本文的工作主要分为三个相互关联的部分,分别执行不同的任务。在本文的第一部分中,我们介绍了OFA和OMNA算法,用于特征演变的数据流(例如,网络安全系统,欺诈检测,传感器机器,恶意软件,垃圾邮件和信用卡交易)中的实时异常检测;而在第二部分中,我们研究EXTREME算法,这是一种用于极端事件预测任务的随机深度学习框架。在这一部分中我们展示了其应用并提出了一种基于快速记忆的复杂时间序列(例如,税收运输系统,金融股票价格和入侵检测系统)中极端事件预测方法。在第三部分中,我们描述了 OFAT概率深度学习预测框架,具体展示了所提出的框架在跨领域(如网络流量、需求、销售价格和天气预报)特征演变数据流中的长期预测应用。本文的工作表明,在随机环境下,不确定性决策具有较强的理论保证,能较好地提升异常检测、极端事件预测和长期预测任务的性能。通过全局和随机子空间推理,可以在大量的真实数据(包括高频特征演化的异构时间序列)中实现复杂的非线性表示深度学习。其中快速有效的检测,事件预测和预报方法可以满足现代计算机应用程序的要求。也就是说,能够满足基本的特性,比如有效性、可伸缩性、对现代数据集的健壮性、处理流数据和演化异构数据类型的复杂特性等。文中提出的贝叶斯深度学习框架既能适应时序特征,也能适应静态特征、跨异构特征演化数据流的学习以及处理概念漂移。通过大量的实验和对大规模真实世界数据集的严格评估,我们验证了所提出的深度学习框架的有效性。在不同任务和数据集上的实验表明,所提出的深度学习概率框架在检测和预测任务方面的适用性、鲁棒泛化性、准确性等均优于目前已知的最先进的方法。