时间序列聚类中U-shapelets提取方法的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:daiguisheng613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据广泛存在于生活的各个方面,它记录了事物在每个给定时间间隔内的观测值,具有数据维度高、数据量大的特点。时间序列聚类作为数据挖掘领域的一个重要研究分支,受到人们的广泛关注。传统的研究方法大多直接对整个时间序列进行聚类分析,然而时间序列中存在的噪音等无关数据会影响聚类结果的准确性。最近,一种基于u-shapelets的时间序列聚类方法被提出,该方法利用局部形状特征来区分序列之间的差异,不仅聚类精度高,对聚类结果也有很好的解释性。虽然基于u-shapelets的时间序列聚类方法已经取得一定的成果,但仍存在一些问题。主要体现在三个方面:其一,提取u-shapelets的过程非常耗时,尤其是在一些大数据集上;其二,为了加速u-shapelets的提取而忽略其质量,在一定程度上降低了聚类结果的准确性;其三,原始的u-shapelets质量度量方式不够准确,会影响u-shapelets的辨别性。本文围绕以上问题主要对u-shapelets的提取过程进行研究,其主要内容如下:(1)本文提出一种随机局部搜索u-shapelets的算法(Random Local Search Algorithm,简称RLS算法)。首先,针对提取u-shapelets时间花费高的问题,RLS算法采用随机技术从数据集的整个子序列空间中选取一定数量的子序列,大幅度减少了u-shapelets候选样本的数量;其次,为了改善提取到的u-shapelets质量,引入一种局部搜索策略,求得局部最优子序列作为u-shapelets。本文在27个大小不同的数据集上对RLS算法的有效性进行了验证,实验结果表明,RLS算法在提高u-shapelets的提取效率的同时还提高了聚类结果的准确率。(2)本文提出一种基于特征点提取u-shapelets的算法(Feature Points Algorithm,简称FPs算法)。不同于RLS算法采用随机策略提取子序列,FPs算法在时间序列的特征点上提取子序列,不仅能够过滤掉大量多余的子序列,有效地解决提取u-shapelets时间花费大的问题,还能保证u-shapelets的质量。此外,采用一种新的u-shapelets质量评估方式,充分考虑相似的序列之间的紧密度,可增强提取到的u-shapelets的辨别性。实验结果表明,基于特征点提取u-shapelets的方法在提高u-shapelets的平均提取速度上具有更优的性能,并且能够保证聚类结果的准确性和确定性。
其他文献
新疆呼图壁种牛场培育高产牛群的措施陆东林,李景芳(乌鲁木齐市奶协830011)新疆呼图壁种牛场始建于1955年,1988年被列为国家重点种畜场,是以纯繁中国荷斯坦牛和西门塔尔牛为主的良种奶牛繁育基地
经济运行和金融活动相互促进,金融是经济运行的血液,资源配置的枢纽。现代金融发展理论的观点认为金融是现代经济的核心,一个国家的金融结构对于宏观经济运行具有重要的影响
提出了GTO的门极等值电阻问题,论述了它的测定依据。提出了GTO门极横向电阻的测试方法,并给出了测试结果。阐述了门极横向电阻与GTO关断能力的关系。
纤维素酶分子生物学研究进展及趋向穆小民,吴显荣(北京农业大学生物学院)自从1906年从蜗牛消化液中发现纤维素酶以来,人们在纤维素的生化转化方面进行了大量的研究,但由于纤维素底物的
近年来在新疆部分地区的草坪出现了不同程度退化现象,本文主要介绍草坪的建植及养护方法.
电力电子技术在宝钢的应用宝山钢铁(集团)公司设备部谢振德TheApplicationofPowerElectronicsinBaoShanSteelWorks前言随着大功率半导体元件晶闸管的出现和发展,促进了各种变流电路的发展和完善,进而又推动了各种...
由东北师范大学出版社于2000年底出版的<殷墟甲骨字迹研究>,在目前的甲骨学论著中是一部引人注目的新作.该书是东北师范大学文学院张世超教授根据其在吉林大学攻读博士学位期
本文以<海东金石苑>中崔致远<唐新罗朗慧和尚塔碑>为例,梳理出唐代海东石刻文献的三个方面史料价值,即记载当时新罗相关国是、弥补佛教灯传典籍的不足与记录新罗僧人在中国广