时间序列流的层次聚类和频繁模式的挖掘算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:nbxtihc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列挖掘是数据挖掘领域中最具挑战性的十大研究方向之一。时间序列流是一种连续、高速、无限、时变的按照时间排列的有序序列。连续性要求挖掘算法扫描次数少;高速性要求挖掘算法的实时性高;数据量的无限性要求挖掘算法能够缓存数据,并分批装载进主存中:数据内容的时变性要求挖掘算法具有处理概念漂移的能力,能够反映出数据的演化性质。由于时间序列流的复杂特性,时间序列流的挖掘研究仍处于探索阶段,本文将从层次聚类系统和序列频繁模式挖掘两个方面开展研究。由于层次聚类算法具有自适应确定聚类数目、适合多种类型的簇结构和效率高等多种优点,使得它在数据流聚类研究中应用广泛。本文重点研究了数据流层次聚类中的ODAC(the Online Divisive Agglomerative Clustering)算法。ODAC算法是一个时间序列流增量式聚类算法,采用自顶向下策略构建簇的一个层次树状结构。但它存在两种问题:噪音数据影响聚类结果和处理概念漂移时重构簇结构代价过大。本文提出了一种基于粗糙集理论的改进算法ODRC(the Online Divisive Rough Clustering)。 ODRC算法分为两个阶段:第一阶段根据时间序列流样本生成子簇的层次结构,第二阶段利用限制容差关系模型扩展子簇的粗糙集定义,从而获得子簇结构基于粗糙集的等价划分。该算法能够获得比原算法更加合理的簇结构,增强了对时间序列流中概念漂移现象的处理能力。实验结果表明了该方法的可行性和有效性。序列模式挖掘作为数据挖掘领域的研究热点之一,其任务是从序列数据库中挖掘出频繁序列供决策者做出决策。本文引入了一种基于滑动窗口技术的序列模式挖掘算法MFI-TransSW,该算法采用比特序列实现滑动窗口操作,较好解决了在数据一遍扫描和有限内存空间的限制下实现快速处理的难题。针对MFI-TransSW算法在频繁模式生成阶段计算效率不高的情况,本文提出了一种基于窗口划分成固定数目段的多线程算法MFI-MultiSW. MFI-MultiSW算法采用线性链表结构存储当前候选项集和窗口内事务的信息,并在线性链表的基础上采用多线程方法生成频繁模式。实验结果表明,改进算法相比原算法具有较高的执行效率,尤其在多核环境中,性能提升更为显著。
其他文献
学位
学位
随着经济的发展,人们的生活发生了极大的变化。为了节省时间成本,很多人选择了驾车出行。因此,造成了交通拥挤,堵塞严重的现象。为解决这个问题,很多研究者展开了对智能辅助驾驶系
随着移动互联网的发展,手机已经从最初的一种沟通工具,变为一个天然的数据采集和处理平台,包括文本,语音,图像,视频,位置信息等。而人工智能与智能手机的融合不仅在改变着人类的生活
PS版的需求量增多,使得PS版的整体稳定性和整体质量难以保证。为了取得优良的印刷效果,市场对于版面质量提出了较高的要求,且以此参数,评估PS版的整体品质。人工目测一直是国
随着能源的日益短缺,利用可再生能源供电成为了行之有效且十分必要的方法,而微电网便是将可再生能源进行利用的一种非常有效的形式。微电网中,为了让微电网经济高效地运行,每个DG(Distributed Generation)输出的有功功率与无功功率是两项非常重要的指标,实际应用中线路阻抗常常会影响负载容量的均分,不适合的均分负载容量的方式可能会导致承担较大功率输出的DG老化程度急剧加快,从而给微电网的稳
学位
胎儿心电监护一直是产程中胎儿健康监护的重要手段。目前常用的采集方法为母亲腹壁心电采集法,该方法采集到的是胎儿心电、母亲心电、工频干扰、基线漂移、肌电干扰以及一些其
近年来,随着综合电力系统的快速发展,对船舶电站的要求越来越高,为了满足全电力推进船的电力性能的稳定性及可靠性要求,一种新型的配电网络的拓补结构——环形区域配电网络逐
据统计,空调能耗占建筑总能耗65%,中央空调是大厦里的耗电大户,因此中央空调的节能改造显得尤为重要。中央空调作为制造产业,其节能效果亦关乎人类长远利益,我国是空调消费大国,节能
眼压信号是青光眼患者特别是重症青光眼患者需要实时、准确监测的一项非常重要的生理信号。目前医院常用的眼压测量仪器,由于其尺寸大,无法连续监测且需要外人协助测量等因素