论文部分内容阅读
随着大数据产业的爆发,人们越来越认识到数据的重要性,数据如同矿产一样,有着十分重要的价值。数据是一种国家战略性资源。如何去开发和利用这些数据是我们下一代科技人员的使命。在数据挖掘领域中,模式挖掘是一个非常重要的研究课题,是发现数据特征的重要方法之一。模式挖掘主要分为两类,第一类是序列模式挖掘,第二类是时间序列模式挖掘。序列模式是基于序列数据库的模式挖掘算法。以购物篮数据为例,序列模式挖掘的是购买电视机后购买DVD是否是一种频繁的行为模式。序列模式的挖掘对象是离散的物品和物品背后顾客的行为模式,这种模式不要求行为之间有连续性,只需要有时间上的先后顺序。时间序列模式是基于时间数据库的模式挖掘算法。以股票数据为例,时间序列模式挖掘的是每天的收盘价构成的一段长度为30的连续模式序列,通过聚类、分类、异常检测等方法找到重要的模式特征。时间序列模式要求是连续的数列,序列大多由数值型数据组成。本文提出一种新颖的、结合两种模式挖掘算法的组合序列模式挖掘算法。首先使用时间序列进行子序列的切分,然后对这些时间子序列使用聚类算法进行无监督的分类。根据聚类分析结果,给每一个簇一个字母,使用离散化的字符代表这些模式,并对原始序列进行替换。原始的时间序列从连续的数值型序列转变为不连续的字符型序列。最后使用传统的序列模式算法挖掘出频繁的组合序列模式。组合序列模式结合两种主流的模式挖掘算法。在提出如何解决时间子序列分割时,使用了领域知识和信息论相结合的方法;对股票模式进行聚类的时候,使用了DBSCAN算法和谱聚类相结合进行研究;最后对组合模式进行挖掘的时候,在序列模式挖掘的基础上加上了时间约束,使用了深度搜索和广度搜索算法进行分析研究。实验结果表明,本文提出的算法运行效率高,同时能够找到扩展性更强,适用性更广的频繁时间序列模式。