流数据的层次聚类和频繁模式的挖掘算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:luojuncad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据的聚类或频繁模式挖掘要求仅扫描数据集一次,就得到聚类或者频繁模式挖掘的结果。本文主要研究如何提高流数据的聚类和频繁模式挖掘算法的精度,在文中我们提出了两个新的算法:基于密度的高精度流聚类算法Density-based High Precision Streaming-data Clustering(DHPSC)和FP-tree单遍扫描算法Single-Pass Scan FP(SPSFP)。在本文提出的DHPSC算法中,我们使用基于密度的凝聚层次聚类法。该方法使用凝聚层次聚类法作为算法框架,在这种框架下,核心问题就是如何合并两个簇。目前,许多的流数据聚类算法仅仅使用簇的中心点去代表整个簇,这种做法会导致不好的结果。通过细致的分析我们发现,在数据的单遍扫描过程中,簇内距离、簇间距离和方差都是可以精确计算的,从而保证聚类结果的精度。这样,我们可以使用新的基于密度的公式,做为簇间是否合并的标准。实验结果表明,新算法会节省时间和空间方面的开销,并取得较好结果。流数据的频繁模式挖掘方面,FP-growth算法是频繁模式挖掘中用于静态数据集的经典算法。但是FP-tree的创建需要扫描数据库两遍,在处理流数据方面收到了很大的限制,使用滑动窗口虽然能在一定程度上解决这一问题,但是依然会造成FP-tree生成时的不准确,影响到后续的挖掘。本文提出的SFSFP算法,单遍扫描数据集即可准确创建出FP-tree。与传统的FP-tree创建算法相比,本文算法仅扫描数据库一遍,并且不需要将整个数据集调入内存。该方法不仅节省了所占用的空间,而且使得准确挖掘流数据中的频繁模式成为了可能,它的时间耗费方面与传统方法相当。
其他文献
舰载机蒸汽弹射起飞是现役航母上主要采用的一种起飞方式,整个系统包括为弹射提供蒸汽动力的增压锅炉蒸汽系统与弹射起飞系统,在航母的战斗系统中具有十分关键的作用。本文在搭
嵌入式系统技术快速发展使其己成为最热门的技术之一。嵌入式系统在国防、航空航天、工业控制、通信等领域已得到广泛应用。嵌入式技术的迅速发展也带动了嵌入式图形用户界面
随着社会经济的发展,城市化速度加快,机动车数量迅速增加,由此带来的城市拥堵日益严重,交通阻塞已经成为世界各国普遍关注的问题。智能交通运输系统(lntelligentTransformSystem,I
萤火虫算法是一种启发式群智能优化算法,它通过模仿萤火虫之间利用荧光进行信息沟通的行为,抽象出了一种优化模型。该模型以吸引和更新为两大步骤,实现简单,收敛迅速,且优化精度较
近年来,随着通信技术、微机电系统、传感器技术的进步,以及多学科知识之间的相互融合,促进了无线传感器网络向智能化、多样化的方向发展,使得其应用范围更加广泛、应用层次更
锅炉燃烧状态是否稳定直接影响机组的安全性和经济性,本文采用SIS平台的数据,重点围绕热工信号的相关性、燃烧状态相关信号的提取这两个方面进行研究。首先针对传统的热工信
由于海洋在军事和资源等方面的重要性,近年来水中机器人成为国际研究的一个热点问题。而鱼类的游动方式具有高速、高效、灵活、低噪等特点,因此仿生机器鱼成为水中机器人研究
目前,随着火电厂机组容量的不断提高,同时为了满足电网调峰的要求,过热汽温作为电厂运行中的重要参数,其控制效果的优劣直接决定着火电厂的安全性和经济性。过热汽温对象具有
随着图像处理技术以及计算机处理能力的飞速发展,人脸识别技术(FRT)广泛应用于智能视觉监控系统、门禁和考勤系统等领域。人脸识别是基于生物特征的身份验证中最自然直接的手
生产调度是制造系统的一个研究热点,是整个先进生产制造系统实现管理技术、运筹技术、优化技术与计算机技术发展的核心。有效的调度方法和优化技术的研究与应用,是实现先进制