时间序列聚类中U-shapelets提取方法的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：daiguisheng613

【摘要】

：

时间序列数据广泛存在于生活的各个方面,它记录了事物在每个给定时间间隔内的观测值,具有数据维度高、数据量大的特点。时间序列聚类作为数据挖掘领域的一个重要研究分支,受

【作者】

：

孟庆红

【出处】

：

华东师范大学

【发表日期】

：

2004年期

【关键词】

：

时间序列聚类 U-shapelets 子序列提取局部搜索特征点提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

时间序列数据广泛存在于生活的各个方面,它记录了事物在每个给定时间间隔内的观测值,具有数据维度高、数据量大的特点。时间序列聚类作为数据挖掘领域的一个重要研究分支,受到人们的广泛关注。传统的研究方法大多直接对整个时间序列进行聚类分析,然而时间序列中存在的噪音等无关数据会影响聚类结果的准确性。最近,一种基于u-shapelets的时间序列聚类方法被提出,该方法利用局部形状特征来区分序列之间的差异,不仅聚类精度高,对聚类结果也有很好的解释性。虽然基于u-shapelets的时间序列聚类方法已经取得一定的成果,但仍存在一些问题。主要体现在三个方面:其一,提取u-shapelets的过程非常耗时,尤其是在一些大数据集上;其二,为了加速u-shapelets的提取而忽略其质量,在一定程度上降低了聚类结果的准确性;其三,原始的u-shapelets质量度量方式不够准确,会影响u-shapelets的辨别性。本文围绕以上问题主要对u-shapelets的提取过程进行研究,其主要内容如下:(1)本文提出一种随机局部搜索u-shapelets的算法(Random Local Search Algorithm,简称RLS算法)。首先,针对提取u-shapelets时间花费高的问题,RLS算法采用随机技术从数据集的整个子序列空间中选取一定数量的子序列,大幅度减少了u-shapelets候选样本的数量;其次,为了改善提取到的u-shapelets质量,引入一种局部搜索策略,求得局部最优子序列作为u-shapelets。本文在27个大小不同的数据集上对RLS算法的有效性进行了验证,实验结果表明,RLS算法在提高u-shapelets的提取效率的同时还提高了聚类结果的准确率。(2)本文提出一种基于特征点提取u-shapelets的算法(Feature Points Algorithm,简称FPs算法)。不同于RLS算法采用随机策略提取子序列,FPs算法在时间序列的特征点上提取子序列,不仅能够过滤掉大量多余的子序列,有效地解决提取u-shapelets时间花费大的问题,还能保证u-shapelets的质量。此外,采用一种新的u-shapelets质量评估方式,充分考虑相似的序列之间的紧密度,可增强提取到的u-shapelets的辨别性。实验结果表明,基于特征点提取u-shapelets的方法在提高u-shapelets的平均提取速度上具有更优的性能,并且能够保证聚类结果的准确性和确定性。

其他文献

新疆呼图壁种牛场培育高产牛群的措施

新疆呼图壁种牛场培育高产牛群的措施陆东林，李景芳（乌鲁木齐市奶协８３００１１）新疆呼图壁种牛场始建于１９５５年，１９８８年被列为国家重点种畜场，是以纯繁中国荷斯坦牛和西门塔尔牛为主的良种奶牛繁育基地

期刊

牛种牛良种选育新疆

我国金融结构与经济增长关系研究

经济运行和金融活动相互促进,金融是经济运行的血液,资源配置的枢纽。现代金融发展理论的观点认为金融是现代经济的核心,一个国家的金融结构对于宏观经济运行具有重要的影响

学位

金融结构经济增长关联机制互动过程向量自回归

GOT门极横向电阻值测定与关断能力

提出了ＧＴＯ的门极等值电阻问题，论述了它的测定依据。提出了ＧＴＯ门极横向电阻的测试方法，并给出了测试结果。阐述了门极横向电阻与ＧＴＯ关断能力的关系。

期刊