Key Issues and Patterns for Detection and Prediction in Time-Evolving Data Streams

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:connine_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近来深度学习已引起AI,计算机视觉,语言处理等多个领域研究人员的关注。本质上讲,序列到序列结构(例如递归神经网络(RNN)和卷积神经网络(CNN))在检测,事件预测和预报等任务中已得到广泛应用。从大规模传感器数据网络,众多工业,环境传感器以及网络空间生成的数据对流的可用性以及相关的高效且可扩展的算法提出了越来越高的需求。这类算法可以自动分析这些数据,检测并标记异常数据,预测感兴趣的事件,甚至预测未来需求。理想情况下,新提出的模型在训练和测试上应保证快速有效的收敛。因为高维数据流中的每个维度可能包含各自独立的时间序列。所以,成千上万个不同的数据流可能形成庞大的,不断发展的数据流,为这类数据的处理带来了新的技术挑战和机遇。首先,流分析的一项基本功能是以无监督的方式对每个流进行建模,预测和异常行为检测。其次,早期的异常检测,事件预测和长程预测很有价值,但是在实践中可能难以可靠地执行,因为程序约束要求系统实时而非批量化处理数据。第三,流数据固有地表现出概念漂移,需要算法的不断学习适应。第四,实践中大量独立流需要完全自动化的框架。在这种情况下,快速演化数据的大体量和不确定性给检测和预测带来了挑战。这使得在测试和训练时充分考虑计算速度和检测与预测的准确性成为一项复杂的优化任务。最后,不考虑模型维护和为了及时处理而演化流所需的内存空间而在具有数百万个指标的时间序列上训练模型实际上是不可行的。训练时间一直是深度学习的瓶颈之一。同样地,用于检测和预测的算法必须强大,才能妥善处理不可避免的数据噪声;必须可扩展,才能有效处理大量输入;必须自动化,才能最大程度地减少在检测和预测中人工干预所带来的昂贵成本。在解决和缓解上述突出问题的过程中,本文的工作重点是加速深度学习,通过发明新的模型,规避现有方法的缺点,从而开发新颖有效的算法,解决上述长期存在的问题。首先,本文使用概率混合顺序框架部署一个数据的随机子空间,以准确有效地利用给定多维数据流中的全局模式,并在特征演化的数据流中执行任何时间的检测、事件预测和长期预测任务的本地推断。具体而言,我们提出的检测,事件预测和长期预测框架具有全局和子空间思维能力,其中包括随机推理,逻辑推论以及处理经过良好校准的预测不确定性估计,这显然超出了常规深度学习框架的能力。其次,在提升算法速度和效率的同时,我们还提出了用于改善深度学习框架泛化能力的技术。具体而言,本研究应用端到端深度贝叶斯神经网络架构,结合概率分位数回归(QR)和全局随机子空间推理方法,对高维特征演化数据流中检测和预测问题进行建模。第三,由于高维特征数据流具有不断演化的特性,我们无法了解数据的所有内容,而且对每个数据流(或整个数据集)都训练一个预测模型是不切实际的。因此我们提出的模型应该能够通过校准良好的原则不确定性估计来预测我们不知道的内容。第四,我们通过使用(ⅰ)随机QR来处理各种因素,例如所使用算法的差异性,所使用的各种数据集的差异性和随机性以及残差预测误差的差异性等。该随机QR对离群值具有鲁棒性,且不需要对数据分布进行假设;(ⅱ)RNN长期-短期记忆(LSTM)的变体,能够在学习过程中很好地处理消失和爆炸的梯度问题,从而能够从较早的时间步向较晚的时间步传递较长序列的信息;(ⅲ)CNN,通过在潜在表示学习中提取关键特征来减少信号方差,以实现更好的输出分位数预测。本文的工作主要分为三个相互关联的部分,分别执行不同的任务。在本文的第一部分中,我们介绍了OFA和OMNA算法,用于特征演变的数据流(例如,网络安全系统,欺诈检测,传感器机器,恶意软件,垃圾邮件和信用卡交易)中的实时异常检测;而在第二部分中,我们研究EXTREME算法,这是一种用于极端事件预测任务的随机深度学习框架。在这一部分中我们展示了其应用并提出了一种基于快速记忆的复杂时间序列(例如,税收运输系统,金融股票价格和入侵检测系统)中极端事件预测方法。在第三部分中,我们描述了 OFAT概率深度学习预测框架,具体展示了所提出的框架在跨领域(如网络流量、需求、销售价格和天气预报)特征演变数据流中的长期预测应用。本文的工作表明,在随机环境下,不确定性决策具有较强的理论保证,能较好地提升异常检测、极端事件预测和长期预测任务的性能。通过全局和随机子空间推理,可以在大量的真实数据(包括高频特征演化的异构时间序列)中实现复杂的非线性表示深度学习。其中快速有效的检测,事件预测和预报方法可以满足现代计算机应用程序的要求。也就是说,能够满足基本的特性,比如有效性、可伸缩性、对现代数据集的健壮性、处理流数据和演化异构数据类型的复杂特性等。文中提出的贝叶斯深度学习框架既能适应时序特征,也能适应静态特征、跨异构特征演化数据流的学习以及处理概念漂移。通过大量的实验和对大规模真实世界数据集的严格评估,我们验证了所提出的深度学习框架的有效性。在不同任务和数据集上的实验表明,所提出的深度学习概率框架在检测和预测任务方面的适用性、鲁棒泛化性、准确性等均优于目前已知的最先进的方法。
其他文献
一直以来,奈奎斯特采样定理是传统信号采样的基础,但该定理理论要求当采样速率达到信号带宽的两倍以上时才能进行信号的精确恢复,由此出现了代替奈奎斯特采样定理的最新却最有效的信号采样压缩处理技术—压缩感知理论。该理论是基于信号的稀疏性或可压缩性,同时实现信号的压缩和采样。它已经成功的被应用到科学领域和工程领域的很多方面,成为了近几年来国内外学者的研究热点。该理论主要包括了信号的稀疏表示、采样矩阵的选取和
在无线通信领域中,网络容量、传输效率、抗干扰能力是无线网络传输的重要指标。中继网络是扩大信号传输覆盖范围、提高传输效率、节约网络资源的有效手段。波束成形技术通过对天线阵列的信号进行加权处理,获得分集增益,提升网络的传输性能。并且,因其波束传输的方向性以及空间滤波性,波束成形技术具有很好的抗干扰能力。因此,结合中继网络研究波束成形技术以提升网络容量与抗干扰性能具有非常重要的理论意义和应用价值。两跳多
近年来,随着计算机和网络技术的快速发展和普及,多媒体数据越来越多样化并在网络和社交媒体上呈现出爆炸性增长的趋势。如何有效管理、检索和利用这些庞大的多媒体数据成为了国内外工业界和学术界共同关注的问题。基于紧致编码的最近邻搜索技术具有占用空间小,计算复杂度低等优点,已经被广泛应用于多媒体数据的管理和分析。在本文中,我们较为全面的研究了面向多媒体数据最近邻检索的紧致编码学习算法。针对单模态和多模态等不同
面对未来无线网络的海量连接、增强移动宽带、超可靠性、低时延等业务需求,兼具照明和通信的可见光通信(VLC)以及兼顾频谱效率和用户体验的非正交多址接入(NOMA)分别成为极具潜力的通信范例与多址方案。由于室内VLC系统中每个光小区内用户数有限、光链路信噪比高、发光二极管(LED)发射角与接收器视场角可调谐、信道状态信息较稳定等特点可与NOMA完美契合,因此,从增强频谱效率和探索新型频谱两个层面出发,
增长性与值分布性质是复函数的两种本质特性.解析函数的增长性刻画、复方程(组)解的增长性估计以及亚纯函数的值分布分析等一直是复分析领域的经典问题.本文从逼近和唯一性两方面讨论复函数的增长性与值分布性质,主要包括全平面内收敛的Laplace-Stieltjes变换和复微-差分方程组解的增长性,多连通域内亚纯函数的唯一性,具体内容如下:1.Laplace-Stieltjes变换的增长性.通过引入有限双下
异质图像合成是指对各种不同来源人脸图像之间进行转化与合成,比如不同光照变化下相机拍摄的人脸照片、画家手绘的素描画像、软件合成的人脸照片以及红外成像设备采集到的红外图像。近年来,应用在数字娱乐领域的异质图像合成以及应用在执法领域中的素描画像的合成与识别受到了极大的关注。人脸画像合成主要是指通过输入的照片生成相应的素描画像,主要通过一些合成方法对画像-照片之间的复杂映射关系进行建模,并利用所学习到的映
随着各种高科技技术和探测技术在军事中的应用,降低武器装备等被发现的概率,提高其在现在化战场中生存能力的需求显得尤为迫切。被称为低可探测技术的隐身技术可以改变或减少目标的可探测信息从而降低其被敌方探测系统发现的概率。一般隐身技术以雷达隐身为主,因为位于武器或飞行器上的雷达天线是电磁波的主要散射源。因此,设计兼具传输和隐身功能的雷达天线罩对于降低目标的雷达散射截面(Radar Cross Sectio
极化敏感阵列可以感知入射电磁波的多维电磁场分量,不仅能显著改善对电磁辐射源空域信息的感知性能,而且还可以提供目标的极化信息,其性能要高于传统标量阵列,是阵列信号处理的一个前沿领域,在雷达、通信、声纳和导航等领域有着广阔的应用前景,极化敏感阵列参数估计是一项重要的研究内容,且当前绝大多数极化敏感阵列参数估计算法都是针对远场信号源。然而,随着大型(超大型)阵列以及分布式阵列在实际中的应用日益广泛,在这
随着计算、通信和传感器技术的快速发展,大量的复杂动态系统比如自动制造系统,智能交通系统和物流系统等应运而生,它们都具有混合命令、控制、通信和信息问题的特征。由于各种信号的并发和冲突以及人为设计的运行规则,系统状态只能通过随时间异步发生的离散事件来改变。因此,这类人造系统通常被视为离散事件系统。特别地,由Ramadge和Wonham共同提出的监督控制理论为离散事件系统的控制提供了有力的支撑,其特点在
共形阵列贴合载体曲面的构型符合基于空气动力学的飞行器外形设计,可以减小飞行阻力和油耗、降低飞行器RCS、提升隐身能力。在雷达性能方面,这种构型可最大限度地扩展阵列有效孔径,获得更广的波束覆盖范围和监控视野;天线贴合曲面、不同朝向的放置使极化响应各异的特点给共形阵列带来极化敏感能力。综合利用空域-时域-极化域自由度能提高共形阵列的目标探测能力和地杂波抑制能力,这依赖于对目标回波和杂波在空-时-极化多