时序组合模式挖掘研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:qq330525312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据产业的爆发,人们越来越认识到数据的重要性,数据如同矿产一样,有着十分重要的价值。数据是一种国家战略性资源。如何去开发和利用这些数据是我们下一代科技人员的使命。在数据挖掘领域中,模式挖掘是一个非常重要的研究课题,是发现数据特征的重要方法之一。模式挖掘主要分为两类,第一类是序列模式挖掘,第二类是时间序列模式挖掘。序列模式是基于序列数据库的模式挖掘算法。以购物篮数据为例,序列模式挖掘的是购买电视机后购买DVD是否是一种频繁的行为模式。序列模式的挖掘对象是离散的物品和物品背后顾客的行为模式,这种模式不要求行为之间有连续性,只需要有时间上的先后顺序。时间序列模式是基于时间数据库的模式挖掘算法。以股票数据为例,时间序列模式挖掘的是每天的收盘价构成的一段长度为30的连续模式序列,通过聚类、分类、异常检测等方法找到重要的模式特征。时间序列模式要求是连续的数列,序列大多由数值型数据组成。本文提出一种新颖的、结合两种模式挖掘算法的组合序列模式挖掘算法。首先使用时间序列进行子序列的切分,然后对这些时间子序列使用聚类算法进行无监督的分类。根据聚类分析结果,给每一个簇一个字母,使用离散化的字符代表这些模式,并对原始序列进行替换。原始的时间序列从连续的数值型序列转变为不连续的字符型序列。最后使用传统的序列模式算法挖掘出频繁的组合序列模式。组合序列模式结合两种主流的模式挖掘算法。在提出如何解决时间子序列分割时,使用了领域知识和信息论相结合的方法;对股票模式进行聚类的时候,使用了DBSCAN算法和谱聚类相结合进行研究;最后对组合模式进行挖掘的时候,在序列模式挖掘的基础上加上了时间约束,使用了深度搜索和广度搜索算法进行分析研究。实验结果表明,本文提出的算法运行效率高,同时能够找到扩展性更强,适用性更广的频繁时间序列模式。
其他文献
Petri网是描述和分析并行与分布系统的有力工具,为扩展Petri网的建模与分析能力,使之能够处理时间相关的问题,人们将时间约束引入Petri网模型中,形成带时间约束的Petri网.Mer
近几年来,由于移动终端设备的蓬勃发展,各式各样的硬件设备,软件平台都被开发出来.但是程序员如果想要写出能够跨越这么多平台的应用来,不是一件容易的事.因此,本身具有跨平
工业界,尤其是棉纺织行业,对计算机图像识别及检测处理技术有着十分迫切的需要。目前,棉纺织行业中原棉异纤检测环节急需一种代替人工的自动异纤在线检测系统的出现。随着微电子
校园网的监测和管理成为现在高校的一项重要课题。蓬勃发展的校园网,使现在高校师生的学习、生活和工作变得越来越离不开网络。但网络的极度膨胀,使网络的运行效率、安全问题日
本课题主要研究的是基于角色的访问控制技术如何在网络安全中得到实现。传统的网络安全技术手段,不能实现网络区域的有效隔离和用户访问的有效控制。采用基于角色的网络访问控
音视频传输是网络多媒体的一个重要内容,涉及到多媒体和网络通信方面的内容,同时必须满足一定的服务质量。为此,研究音视频传输必须考察适合通信的多媒体技术和合适的通信技
随着互联网的快速发展,数据量爆炸性的增加,人们对搜索的精准性和智能化的需求日益增长,知识图谱的兴起拉开了智能信息检索从字符串匹配跃迁至智能理解的序幕,可以实现深度挖
随着互联网的发展,XML格式逐渐成为数据展现和传输的事实标准。XML上信息获取技术研究也越发重要。自XML语言诞生以来,各种各样的XML结构化查询语言被开发出来,如XPath、XQue
论文总体上分为三个部分展开:第一部分作者首先就当前社会对于仓储管理所提出的新要求进行了描述,对传统的仓储管理系统的局限型作出了分析。在此基础上,通过与传统的事务数据库
随着人们对高性能计算的需求越来越大,并行处理作为高性能计算的一种重要手段,也越来越得到重视。然而,在很多应用中,并行处理的能力受到削弱,其原因之一是因为负载不均衡,引