基于模式的时间序列进化分割方法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:HongJuZhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的过程,是目前国际上数据库和信息决策领域前沿的研究方向之一。随着时序数据在金融和科技应用中的广泛使用,时间序列数据挖掘成为数据挖掘领域中一个新的研究方向。 时间序列分割是将长序列分割成不重叠的、有序的子序列集合的过程,是时间序列数据挖掘研究的重要任务之一,具有广泛的应用空间和重要的研究价值。 时间序列进化分割算法是使用遗传算法将时间序列按所给标准模式集合进行弹性地分割的一种方法。在遗传算法中,适应度函数是一个非常重要的组成部分,它的设计对算法的收敛速度以及最优解的寻找有很大影响。因此,选择合适的距离度量作为时间序列进化分割算法中适应度的评估就显得至关重要。现有的时间序列进化分割算法在时间序列的模式匹配上采用基于点对点比较的距离度量,这种距离度量具有鲁棒性差,对噪音数据敏感等缺点,并且无法处理时间相位差的情况。针对现有距离度量存在的问题,本文提出三种有效的距离度量——包围面积距离、时间弯曲距离和模式序列距离作为适应度的评估,并详细介绍了这三种距离度量的实现方式以及所对应的时间序列表示方式。实验结果表明:基于这三种距离度量的方法在准确分割、收敛速度以及运行效率上比原来的方法表现要好。
其他文献
随着计算机应用技术的发展,电子文档的数量呈爆炸的趋势增长。各种形式的电子文档中蕴涵着丰富的信息,但由于它们是以非结构化或半结构化形式存储的,所以无法用传统的数据挖掘方
在多级安全数据库系统中经典的BLP模型的“向上写”规则违反了数据库的完整性约束,并产生隐蔽通道和推理通道问题,解决方法是引入多实例。但引入多实例会引起语义模糊的问题,
数学公式是一类非常特殊的符号表达式。在外形上,它呈现非线性结构,可以用于描述和展示比普通文本更加复杂的逻辑关系;在内容上,它简洁明了,对问题的描述和表达比普通文本更
Internet的发展改变了人们的生活方式,但是网络给人们带来巨大便利的同时也带来了各种各样的安全威胁,网络病毒是其中最主要的部分。随着互联网的发展,网络病毒传播的速度越来越
网络的发展使得世界各地越来越丰富的电子资源信息供人们使用,但是随着数字信息的爆炸性增长,快速有效地获取需要的相关信息却又变得越来越困难,因而对信息获取技术的发展提出了
Internet环境中分布着数目巨大、形式多样、功能各异的可共享资源,如何充分利用网络中丰富的资源、消除信息孤岛是人们一直在致力解决的问题。网格计算技术的出现旨在寻求有
基于统计学习理论的支持向量机算法具有坚实的数学理论基础和严格的理论分析,具有理论完备、全局优化、适应性强、推广能力好等优点,是机器学习中的一种新方法和研究新热点。它
互联网正从一个静态数据内容占主导地位的阶段快速发展成为一个包含静态媒体内容和连续媒体内容的综合的信息资源库。随着网络带宽和计算机处理能力的提升,流媒体技术成为人们
近些年,随着人们对精神文化的不断追求,以及国家对文化产业的大力支持,文化演出服务行业随之繁荣。文化演出服务提供者提供的资源日益丰富,观众的需求偏好日益个性化,如何将丰富的
为了提高决策科学化水平,电信企业也纷纷构建了以数据仓库系统为核心的经营分析系统,为企业的决策提供管理信息。然而,经营分析系统不能实时地根据变化数据产生信息,进而支持企业