论文部分内容阅读
随着互联网应用的普及以及存储技术的发展,经常会遇到海量的结构复杂的数据需要分析,如微博信息数据、生物学数据、电子商务数据和移动信息数据等等,这些数据都可以用树结构或图结构来表示,并且在时间序列上是连续的。如何对这些时间序列数据进行挖掘,从中提取出我们需要的信息,已经成为数据挖掘研究领域的热点。不过目前的时间序列数据挖掘技术还处于起步阶段,挖掘算法有待补充和完善。在现实应用中,时间序列上周期性更为常见,更加具有研究价值和意义,是时间序列数据挖掘的研究热点。现实生活中,经常会有一些人周期性的共同做一些事情,如:每天早晨固定的一些老年人在广场锻炼,基督教徒每周日去教堂做礼拜等。这些周期性共同出现的人,很有可能由不认识的人变为好友。我们挖掘出这些人,在好友关系发现上可以做一些预测。再比如,某个家庭主妇每隔固定时间逛一次超市买一些生活消耗品(如肥皂、油、米、面等),我们挖掘出周期性共同购买的产品后,可以进行商品推荐服务。所以,本文就选择了时间序列周期模式挖掘为主要研究对象。本文首先介绍了时间序列数据挖掘的研究现状,然后对现有的时间序列周期模式挖掘算法进行了详细的分析。目前,大多数的研究都是对全局周期模式挖掘的研究,有很多有用的周期模式仅发生在时间序列的某个局部时间段上,现有的算法不能挖掘出这样在某个时间段频繁发生的周期模式。在分析了Aprior算法、类Aprior算法以及最大子模式命中算法后。发现最大子模式命中算法相对于类Apriori算法在挖掘的效率上有了明显提高,但仍需要对时间序列的数据库扫描两次,并且都要对模式进行频繁计数等工作。针对以上不足,本文提出一种基于更新模式树的周期模式挖掘算法,该算法能够全部实现前人算法的功能,并拥有更大的优势:能够挖掘出只在局部频发出现的周期模式;能够同时进行多个周期模式的挖掘等。并且在扫描数据库的次数上,只用扫描一次,大大的提高了算法效率。又因为只扫描一次数据库,在数据的输入形式上,能够支持动态输入数据。最后,在算法应用方面本文也进行了一定的研究,在研究人们共现行为的周期性上进行了初步的探索。对斯坦福大学公开的亚马逊网站购物数据、基于位置的社交网站Gowalla的移动数据进行了分析。