【摘 要】
:
频繁项集挖掘是数据流挖掘中重要的研究领域,目前国内外数据流频繁项集挖掘算法还存在诸多问题。例如模式产生延迟比较严重;挖掘出的频繁项集相当庞大;简单的挖掘算法没有面
论文部分内容阅读
频繁项集挖掘是数据流挖掘中重要的研究领域,目前国内外数据流频繁项集挖掘算法还存在诸多问题。例如模式产生延迟比较严重;挖掘出的频繁项集相当庞大;简单的挖掘算法没有面向应用,不能满足用户的需求。针对这些问题,本文主要研究基于FP-Tree概要数据结构上的数据流频繁项集挖掘算法,其研究成果对顾客购物模式、网络通信的错误分析、电子商务、商业智能以及市场决策等领域具有重要的意义。首先,本文提出一种在数据流中基于滑动窗口的挖掘频繁闭项集的算法MFCI-SW。该算法在滑动窗口所对应的FCIL中记录频繁闭项集数据项的支持度计数和窗口序列号,随着新窗口的到来,删除K值最小的数据项同时插入新窗口频繁闭项集的数据项,在模式树中通过指针剪除K值最小的数据项所对应的节点,同时插入新节点,最后完成模式树的更新。该算法能提高频繁项集挖掘的执行效率。其次,本文提出一种在数据流中基于时间衰减模型的挖掘最大频繁项集的算法MFI-TD,该算法首先构建一种新的数据结构来存储当前窗口中的事务,并用DP指针指向最大频繁项集;并在此基础上,通过时间衰减模型来对PW-tree进行剪枝,输出当前所有的最大频繁项集。该算法与已有的DSM-MFI算法相比有较好的时间效率。最后,本文提出一种用于获取故障知识的序列模式挖掘新算法SPM-LM,该算法为每一个事件建立一个位置矩阵记录它们在序列中的位置信息,通过两个指针对位置矩阵操作运算生成频繁K序列,提高了模式发现的效率。本文使用现实数据集进行挖掘,通过实验对本文所提出的MFCI-SW算法、MFI-TD算法以及SPM-LM算法进行验证。
其他文献
位置服务技术与无线通信、Internet和时空数据库等技术相融合,形成了一个独具特色、前景无限的新兴产业。移动对象索引技术作为位置服务技术中的一个关键环节,负责管理移动对
本文结合哈尔滨工业大学可穿戴计算机工程研究中心的项目分析了炮兵的实际需求,在通用的军用可穿戴计算机的基础上,搭建了基于数字化单兵的炮兵前观所系统硬件平台,并设计快
电子表格作为组织、存储和分析数据的终端应用程序,在各个领域(尤其是商业领域)被广泛使用,每年有数千万的用户创建、维护数以亿计的电子表格。以Microsoft Excel为代表的电
随着三维建模技术和互联网技术的快速发展,三维模型的数量呈爆炸性增长。面对庞大的三维模型资源,如何快速准确地查找到所需的三维模型,对其重复利用,成为继图像、视频检索之
移动通信和嵌入式计算技术的进步,大大促进了无线移动应用的发展。由于嵌入式设备的处理能力很有限,无线网络传输速度比较慢,使得无线移动应用软件的性能成为了一个倍受瞩目的问
本文从传统的入侵检测技术入手,对入侵行为、防火墙、入侵检测、入侵防御等各项技术做了简要的介绍,分析了目前各种入侵检测/防御模型的优缺点,并从常见的网页入侵类型入手,分析
本文提出了“Harmonia计算网格应用执行环境”,并且开发了相应的系统平台。在一定问题域内解决了科学计算工作者与网格服务以及网格服务与网格服务之间的协同问题。“Harmonia
垃圾邮件已经成为互联网的头号敌人,在资源和时间的浪费上已经严重到了令人不能忍受的地步。人们迫切的需要在最短的时间内解决或者缓解这个问题。 本文总结了国内
远程医疗系统是综合运用计算机网络技术、软件技术、图形图像处理技术、数据库技术、人工智能和专家系统等密切相关的技术来构建的。在该系统中,视频图像的处理、传输和应用是
事务处理在网络分布计算环境中具有重要作用。作为中间件平台的一个重要组成部分,事务监控器为整个业务系统提供分布式事务处理的支持设施。 当前绝大多数的事务监控器遵