【摘 要】
:
随着互联网技术和通信技术的发展与应用,经济、自然科学、工程技术等各领域都积累了越来越多的数据。其中有一类重要的数据,可以体现数据在时间上的先后关系,称为时间序列数
论文部分内容阅读
随着互联网技术和通信技术的发展与应用,经济、自然科学、工程技术等各领域都积累了越来越多的数据。其中有一类重要的数据,可以体现数据在时间上的先后关系,称为时间序列数据。针对时间序列数据的频繁模式挖掘可以找出数据在时间先后顺序中蕴藏的周期性变化和频繁出现的模式,帮助决策者做出更合理的决策。实际生活的各领域中大量的时序数据被不断的实时产出且难以完整保存。例如网络中的交互数据,股票证券交易的实时数据,卫星通讯传输的实时数据等等,这种动态、快速,大量的数据,称为流数据。虽然针对静态数据的频繁模式挖掘已经相对完善,但针对流数据的频繁模式挖掘还处在一个不成熟的阶段。由于对流数据进行处理时只能对其进行单次扫描且无法完整保存,所以传统针对静态数据的频繁模式挖掘算法在性能上很难满足流数据处理需求。如何提升算法效率使算法可以应用于流数据的频繁模式挖掘逐渐成为了一个热点研究方向。本文对已有时间序列数据挖掘算法进行分析,在其基础上进行优化并提出一种可以并行处理多数据流的流数据频繁模式挖掘算法Parallel-Pisa。由于原算法采用串行处理方式对时间序列数据进行处理,算法效率较低,不能满足流数据处理需求。所以本文从提升算法效率角度出发,采用并行处理机制对算法进行优化。利用多核资源对流数据进行处理,提升算法效率使之可以较好的应用于流数据频繁模式挖掘中。由于流数据具有较大的不可预测性,当算法对流数据进行处理时,不同时间段内流数据的流速可能变化较大,忽快忽慢。当流数据产生爆发性的增长时,如果不增加算法使用的资源则可能导致系统负载过高,不能及时处理大量到来的流数据。当流数据恢复至较低的流速时,不对算法使用的资源进行调整则可能会导致算法长期占用过多的资源,造成系统资源的浪费。面对这一问题,本文针对Parallel-Pisa所使用数据结构、Parallel-Pisa内部并行原理及流数据自身特点三个方面进行研究,设计并实现了一种应用于Parallel-Pisa的自适应并行策略。算法在应用时可以对自身的并行方式进行自适应调整,使算法使算法在流数据处理过程中具有更高的稳定性且提高了算法对资源的使用率。本文最后将Parallel-Pisa及其自适应策略整合为一个系统,并通过该系统对Parallel-Pisa性能及自适应策略效果进行测试。实验结果证明,Parallel-Pisa与其他对比算法相比达到了预期优化效果,且自适应策略具备一定的可用性。
其他文献
风电作为我国第三大主力电源,具有广阔的发展空间。在新风力发电机组不断投运的同时,老旧机组逐渐进入故障高发期,若故障不能及时被处理,将影响风电机组的安全经济运行,研究
目的心房颤动(atrial fibrillation,AF)和心力衰竭(heart failure,HF)由于具有共同的危险因素和共同的病理生理特征,常相伴存在,相互促进,严重威胁人类健康。越来越多的临床证据表明,作为反应肾功能的经典低分子量标志物之一的β2-微球蛋白(β2-microglobulin,β2-MG),是患者全因死亡率、心血管疾病死亡率以及合并心血管事件的预测因子。然而目前几乎尚无关
视频图像识别和检索已在现实生活中被广泛使用。它为人类生活,工业生产,仓储,物流和身份验证带来了便利。它也促进了社会的快速发展,是一个巨大的有机体。但是,在某些特定条件下,由于技术和设备的限制,我们无法获得清晰的图像,这对基于图像识别和检索的应用程序产生了巨大影响。图像超分辨率重建的目的是通过一些手段和方法将低质量,不清楚的图像重建为高分辨率图像。本文研究了低分辨率图像的超分辨率重建方法,以解决低分
随着信息技术的日益发达和公众参与公共事务意识的提高,以及《中华人民共和国信息公开条例》的颁布,公众渴望拥有对政府工作和社会事务的更多知情权和参与权。因此,提高政府
服务机器人发展迅速,智能化趋势明显,其中,NAO机器人在治疗自闭症儿童,支持督促老人进行体育活动,并监测其体征,以及与人类互动等方面尤为突出。在这些应用中,本文采用A-star
上世纪七八十年代之际发轫的知青文学,在中国当代文学的发展中长盛不衰,逐渐形成一番具有审美意蕴的文学现象。其原因在于,知青文学有着自身蓬勃的生命力。知青作家创作群体在“上山下乡”“插队”时期造就了艺术上敏锐的叙事话语权。“知青”一代对于中国底层农村的审美体验,体现在知青文学的创作中惯用的乡土叙事技巧,在当代文学中,可以说独树一帜,有美学规律可循。具体表现是,代表性知青小说,在形式和题材的审美上,格调
21世纪是信息时代,信息技术作为一种通用技术,被广泛应用于各个市场和各个企业内部,极大地降低了交易成本。根据威廉姆森的交易成本经济学理论,市场和企业两种不同治理形式的
科学技术高速发展,各种数字信息以不同的形式在日常生活中传递。其中,图像信息也越来越被广泛使用。在图像的产生、传递、存储过程中,常常因为各种原因使得图像变质或退化,这
我国每年科技成果转化率在20%左右,产业化率不足5%,这非常不利于我国创新型国家的建设。目前,在科技成果转化研究方面,学者研究较多的是科技成果转化的评价体系、模式、机制,
本文研究区位于中国延庆联合国教科文组织世界地质公园(以下简称延庆世界地质公园)千家店园区内,主要研究对象是保存有大量硅化木化石的上侏罗统土城子组二段地层。选取研究