论文部分内容阅读
时间序列是大数据的一种重要数据类型,也是数据挖掘领域的一个重要研究方向。现有的关于时间序列的研究成果主要集中在确定的时间序列上,对于不确定时间序列的研究仍存在很多缺失。本文重点研究了不确定时间序列的降维与存储工作,主要工作分为三部分。首先,研究分析了已有的时间序列降维表示方法,针对不确定时间序列特有的数据不确定的特点,提出了新的不确定时间序列统筹降维方法。该方法分别从时间维度和概率维度出发对原始时间序列进行降维处理。在时间维度上采用了基于关键点的线性降维思想,对数据点进行双重遍历与筛选,在数据筛选降维和过度除噪两者间做了很好的平衡;在概率维度上,采用大概率点代替小概率点的思想进行数据的降维,同时提出了重复清洗策略,避免异常点造成的数据筛选不全面的弊端。最后,通过实验的方式,以降维效果和时空消耗作为衡量标准,验证了所提的统筹降维算法的优越性。然后,针对连续型不确定时间序列在每一时刻概率分布的动态性,提出了新的动态推断不确定时间序列概率分布的方法。该方法依托已有的ARMA模型和GARCH模型,提出了新的推算模型I-GARCH。该模型综合考虑了时间序列的变化规律,动态推导每一时刻的概率分布。同时,为了进一步增强该模型的容错性,提出了相应的错误值排除算法。最后,通过实验的方式,验证了所提方法对连续型不确定时间序列表示的精确性。最后,分析了已有的时间序列存储框架的弊端,提出了新的不确定时间序列存储框架设计的基本原则。在此基础上,结合了上述已有的针对离散型和连续型不确定时间序列的处理工作,提出了一个新的不确定时间序列的存储框架。并通过具体的结构分析和初步的实验验证了其在处理和存储不确定时间序列数据上的优越性能。