论文部分内容阅读
随着计算机与信息技术的普及和大容量存储技术的发展,人们在日常事务处理和科学研究中逐渐积累了大量宝贵数据,这些数据背后蕴藏着对决策有重要参考价值的消息。如何从这些历史数据中提取需要的信息正成为数据挖掘领域关注的热点。在现实生活中,时间是数据本身固有的因素,在数据中常常会发现时序语义问题。时序数据的出现使得有必要在数据挖掘中考虑时间因素。时序数据在现实生活中广泛存在,如金融市场、工业过程、科学试验、医疗、气象、水文、生物信息等,而且存储规模呈现爆炸式增长。因此对时间序列数据挖掘问题进行深入研究是非常必要和富有挑战性的。从20世纪末开始,复杂网络的研究已经渗透到生命科学、数理学科和工程学科、社会科学等众多不同的领域。对复杂网络的研究,已成为科学研究中的一个极其重要的富有挑战性的课题。其研究热点之一是寻找复杂网络中的社团结构,事实上这个过程就是一个聚类的过程,所以研究复杂网络社团划分新算法,对于时间序列聚类具有重要意义。本文结合时间序列数据挖掘和复杂网络理论,开展了如下的研究工作:综述了时间序列数据挖掘和时间序列模式挖掘的研究现状,指出了研究的现实意义。介绍并分析了最具代表性的序列模式挖掘算法。然后在Chun-Hao Chen等人的基础上,将模糊频繁趋势挖掘转换为序列模式挖掘并利用序列模式挖掘中的GSP算法生成候选序列模式并进行剪枝,能够更有效减少候选序列模式数量,从而高效的挖掘模糊频繁趋势,提高算法的效率。通过实验验证了本文提出的算法能有效挖掘模糊频繁趋势。提出了一种快速寻找复杂网络中社团结构的新算法。首先通过寻找网络中度最大的节点和其邻居节点,构造出其相应的邻居矩阵和稠密集。然后重复这个过程,最后得到了网络的社团结构。由于算法仅仅涉及到局部信息,因此计算量较小。实验结果表明了算法的可行性。该方法还可用于研究时间序列聚类等数据挖掘领域中的其他问题。