论文部分内容阅读
时间序列数据是一组按时间排列的有序观测值序列,广泛存在于各个应用领域,如股票数据、气象数与生态数据等。时间顺序特征使数据随信息采集时间间隔的不同而呈现连续或分散的形式等特征;另外随着信息技术的不断发展,由于数据采集设备精度、数据集合粒度转换、出于隐私保护等特殊目的或数据集成等不同原因,使得时间序列数据在每个时间点上的观测值都可能是模糊的或不确定的,这种包含不确定性的时间序列数据也广泛存在于如基于位置的服务和无线传感器网络等众多应用领域中。不确定性的存在又为对时间序列数据的挖掘分析带来了进一步的复杂性。本文以不确定时间序列数据的相似性度量为切入点,对有效分析不确定时间序列数据的方法进行研究。现有关于不确定时间序列相似性度量的核心内容:不确定对象的模型表示以及距离度量方法的研究存在一定问题。如基于参数估计方法构建的体现不确定性概率密度分布的不确定数据模型,而参数估计方法依赖于某种理论分布的假设使其在面向由于复杂的现实数据时,由于不确定对象的密度分布未知,而难于发挥作用,进而影响构建模型的准确性。另外基于概率密度分布表示的不确定时间序列数据对象间的距离度量也需要考虑准确性与有效性的问题。考虑到非参数估计方法无需对数据分布作预先假设,使构建模型的密度分布更接近于数据的真实密度分布,在不失准确性的同时还具有较高的灵活性,可以适用于不同的不确定对象类型。因此针对不确定时间序列数据模型构建与相似性度量方法中存在的主要问题,本文首先基于直方图密度估计方法进行构建对象不确定性模型的基础性研究;然后基于高斯核密度估计的不确定性建模方法以及基于高斯变换的不确定性近似建模方法,对于非参数密度估计的模型准确性以及高维复杂性两个核心问题进行深入研究;并进一步从移动轨迹行为分析入手,进行基于非参数密度估计的不确定时间序列相似性度量方法的应用研究。展开的研究工作主要包括以下几方面。(1)考虑时间序列数据的离散特征,基于一种非参数估计中的非核密度估计方法——直方图估计方法进行不确定时间序列的建模及相似性度量方法的研究。包括不确定时间序列中对象的建模,即表示不确定时间序列中的对象不确定性的概率密度函数;不确定时间序列的表示,即获取概率密度函数的频繁模式并抽象为语义表示的不确定数据序列;以及不确定时间序列相似性度量方法。(2)为了解决直方图估计方法受区间宽度影响较大的问题,并充分利用数据原始特征以及提高对不确定时间序列建模与相似性度量方法的灵活性,研究基于随机模拟的不确定时间序列相似性度量方法。包括基于非参数估计中的核密度估计方法构建不确定时间序列的模型,以描述包含不确定性在内的时间序列数据特征;以及基于随机模拟度量表示对象不确定性分布特征的概率密度函数间的绝对差异,作为不确定时间序列间相似性度量的基础。(3)面向高维时间序列数据时,为了提高对高维不确定对象分析的准确性与性能,研究基于快速高斯变换的不确定对象相似性度量方法。首先在不假设数据分布的前提下,构建符合不确定性分布特征的数据模型;当数据模型维度较高时,通过快速高斯变换对不确定对象的高斯核密度函数进行转换,实现高维度模型间距离的快速度量方法。并以此为基础提出不确定数据聚类算法,聚类准确性的提高也可验证相似性度量的准确性。(4)面向不确定时间序列相似性度量方法的应用,研究基于非参数密度估计的不确定轨迹终点预测方法。包括对以时间序列形式表示的移动轨迹的建模方法,即利用非参数估计对起点与终点相同的轨迹构建基于密度分布的不确定轨迹模型;以及通过不确定轨迹模型的匹配方法基于历史移动轨迹进行当前轨迹终点预测的方法,即基于KS假设检验方法研究与具有相同起点的不确定轨迹模型的匹配方法,将匹配得到的不确定轨迹用于预测当前轨迹的终点。最后,总结论文工作,并提出了进一步的研究重点。