论文部分内容阅读
网络信息技术的迅速发展和广泛应用产生了大量的数据流,如:超市交易记录,网络搜索请求,电信通话记录,卫星探测和天文观测科学研究数据等,这些数据流中隐含着丰富有价值的知识。聚类分析作为数据挖掘的重要分支,是处理分析多数据流的一个重要方向。聚类多数据流是一个有趣又有挑战性的课题。为了减少计算复杂度和提高聚类质量,许多时间序列数据流压缩方法和相似度量已经提出。传统的聚类方法需要存储全部数据用于计算,而在流数据环境中,数据流是实时无限的,全部存储和多遍扫描变得不再可能。此外,大多已存在的聚类方法,如:CluStream、DFT等基于数据对象值的欧氏距离作为相似度量计算,这些相似度量能有效聚类具有相似值域的数据流,不适用于聚类趋势相近但数据对象值域差距悬殊的多数据流。但在现实生活中数据流之间的相似趋势可能比数据对象值的大小更值得关注(例如股票的走势往往比其单价更值得关注)。本文提出一个新的聚类方案。首先为了提高效率引入地标压缩数据流,通过寻找数据流拐点获得地标。在聚类分析时使用数据流的少量特征地标数据可以减少大量计算以节约成本。其次为了聚类相似趋势的数据流提出了新的聚类数据流度量——时间距离,区别于已存在的聚类方法使用数据值之间的欧氏距离作为度量基础,新方法使用数据到达时间作为聚类依据,计算数据流之间地标到达时间的相似度聚类,它能将趋势相近但值域差距巨大的数据流划分到同一类。最后使用合成和真实数据集,分别采用传统欧氏距离度量和相关分析度量与新方案进行实验对比。实验结果表明在聚类多相似趋势的数据流时,本文方法具有更高的效率和更好的质量。