论文部分内容阅读
时间序列是指随着时间变化而形成的有序数据序列,它频繁地出现在金融、商业、科学和医疗等各个领域。如何管理和利用这些时序数据,发现隐藏在它们背后的规律和知识,成为人们日益关注的问题。
本文在国内外时间序列数据挖掘最新研究的基础上,从相似性分析出发,研究了时间序列分段线性表示和多模式匹配等问题。本文的主要工作和创新如下:
1.研究了时间序列的表示方法、相似性度量和相似性搜索,并对其主要技术做了详细介绍和优缺点分析。
2.定义了极值噪声和转折点,在此基础上提出了基于转折点的分段线性表示方法。该方法选择极值点作为候选点,并将插值误差不超过阈值的候选点识别为噪声。实验表明,该方法在多种领域的数据集上具备更小的拟合误差,且在处理大数据量时具有较高的稳定性。
3.提出了基于转折点的自适应分段线性表示方法。该方法以转折点为初始分段点,启发式地选取插值误差最大的数据点作为关键点。实验表明,在多种领域的数据集上,该方法可以大幅度地降低拟合误差。经过优化后,该方法的时间复杂度与时间序列的长度成近似线性关系。
4.提出了基于分段聚合近似的包络线下界算法。本文借助分段聚合近似的降维能力,将其引入包络线下界算法,同时证明了下界定理,保证不会引起漏报。经过理论分析,当阈值r选择合适时,该算法的性能较经典算法和包络线下界算法有较大提升,能够处理更高带宽的流式时间序列。