论文部分内容阅读
时间序列是按时间顺序排列的实数序列,它反映了实体属性在时间顺序上的特征。时间序列的降维、相似性匹配及聚类研究是数据挖掘领域的重要研究方面,在位置定位系统、环境监测、物联网等领域中有广泛的应用。并且随着信息技术的发展和现实应用需求的不断扩大,在无线传感器网络、无线射频识别网络、移动对象跟踪、气象雷达网络和隐私保护等应用中逐渐涌现出一类特殊的数据,即不确定性数据,不确定性时间序列是一条在每个时间点上有多个观察值的序列。由于对时间序列的研究主要集中在序列的降维、相似性匹配、存储和索引方面,并未涉及时间序列相似的基本性质,为了弥补该领域的不足,对时间序列相似的交换性、传递性和分配性进行研究,证明时间序列相似具有交换性,不具有传递性和分配性,为时间序列的相似性研究奠定了基础;随后提出了序列最优相似集合的概念,并且证明寻找时间序列的最优相似集合是NP完全问题,为时间序列在聚类挖掘中寻找启发式算法提供了理论依据。由于不确定时间序列的长度很大,并且每个采样点的取值具有不确定性,导致了维度灾难和庞大的可能世界集,所以对不确定时间序列降维是实现对其方便存储、快速查询和相似性匹配的首要任务。不确定时间序列普遍采用小波变换的降维方法,但是该方法没有考虑到采样点之间的相关性,并且小波变换不能处理任意长度的时间序列,为解决该问题,提出基于概率统计和数据相关性的降维方法,该方法将不确定时间序列分为概率维度和时间维度,并分别对两维度进行降维。在时间维度,根据采样点之间的相关性,使用某个采样点代表后续相关度高的采样点;在概率维度,使用大概率点表示相邻的小概率点,实验效果表明,使用该方法对不确定时间序列进行降维后,降维序列可以保持原序列的变化趋势,压缩程度显著,并且可近似的恢复原序列。不确定时间序列固有的维度灾难和庞大的可能世界集问题同样给序列的相似性匹配和聚类过程带来巨大的困难,为解决该问题,分别提出了基于桶分割和算术编码的相似性匹配算法和基于趋势的相似性匹配及聚类算法,其中基于编码的相似性匹配算法不仅可以将不确定时间序列规约为一条确定的时间序列,并通过距离度量完成相似性匹配,而且可以通过规约后的确定时间序列近似的恢复原不确定时间序列;基于趋势的相似性度量方法根据时间序列的整体变化趋势,将时间序列映射为短的趋势符号序列,并利用一阶连接性指数和塔尼莫特系数完成相似性度量;基于趋势的聚类方法通过定义趋势高度,并对趋势符号序列迭代进行区间划分和趋势判断,并以此构建趋势树,最后将趋势树根结点中趋势符号相同的时间序列聚集为一类。实验结果表明,基于编码的相似性匹配算法不仅有很高的匹配效率和很低的时间复杂度,而且可对两种新的相似性类型完成匹配;基于趋势的相似性匹配算法在多项式时间内可有效完成时间序列的相似性度量;基于趋势的聚类算法将序列的相似性度量和聚类过程集中在一起,聚类效果显著。