论文部分内容阅读
流式数据是一组连续的数据序列,具有快速,大量,在时间上连续到达等特点。近年来,随着我国的经济发展,流式数据的应用不断增多,如传感器网络,日志系统,实时监控等。这些设备或程序在其真正的生产环境中都会产生大量的实时数据,这些数据对于生产生活都是宝贵的数据资源。但流式数据由于其大量,实时性特点,无法采用一般的方法进行处理,需要使用大数据处理技术。除此之外,在大多数流式数据系统应用中,通常还会发生某种类型的异常事件,如地震监测系统,煤炭开采矿震监测系统等。这种系统通常监测的是流式数据上的发生的事件,通过监测到的事件来指导生产和生活。例如,在煤炭开采的过程中,会在矿山周围放置多个传感器基站,用于监测煤炭开采过程中产生的微震信号。微震信号在通过岩石,空气的传播过程中会出现能量衰减,干扰等现象。所以对于不同的传感器来说,对于同一个事件的监测在数据表现形式上也不尽相同;同一个传感器对于同一个事件的多次监测也可能出现不同的表现形式。这就导致同一个事件在横向时间上表现形式不同,在纵向的能量表现形式也不相同。因此,本文针对流式数据的事件特点进行模板构建和匹配展开研究。首先,本文根据流式数据的特点,给出了流式数据上的事件定义和事件模板定义。在此基础上求出事件的平均情况,然后根据余弦定理算出与平均事件误差最小的事件作为基本尺度事件,基于该事件给出了基于线性变换的流式数据事件的归一化处理方法。将剩下的所有同类事件以基本尺度事件为参照事件进行变换,这样使得在事件域和能量域大小不同的同类事件规整到同一个范围之内。然后使用相应的聚簇方法将相同位置的数据点进行聚簇处理,这样得到B-Spline输入曲线。通过改进的遗传算法求出B-Spline(以下简称B-Spline)曲线的控制顶点,然后构建事件模板。其次,通过时间间隔方法来获取到流式数据事件的起始点和终止点。并使用分段累积近似法对流式数据事件进行数据压缩处理,避免计算量过高。然后将数据传送到事件模板所在位置,利用分布式环境计算事件和每个模板的匹配程度进行事件匹配。最后,针对本文基于B-Spline曲线的流式大数据事件模版匹配方法进行实验分析,通过和不同方法的对比实验和改变不同数量的事件进行模板生成效率分析。实验表明,本文提出的基于B-Spline曲线的流式大数据事件模版分类方法在有较高的执行效率,并且在资源的使用效率上较同类方法低。