基于网格的数据流聚类算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:leon2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化发展的今天,计算机网络和传感器技术的应用,在电信记录、股票交易、网络监控、WEB网页访问等领域中产生了大量数据流。不同于传统的静态数据,数据流具有动态变化、持续到达、速度快、规模大等特点。如何从数据流中挖掘出有用信息已成为当前数据挖掘中的一个热点。聚类分析是数据挖掘的一个重要方法,能够发现潜在数据中的人们感兴趣的分布模式。传统的聚类算法不能直接应用到数据流聚类,需要设计高效的的单遍扫描算法,这给数据流聚类提出了前所未有的挑战。本文首先对数据流挖掘的知识和相关的一些技术进行了介绍,然后对传统聚类算法进行了分析。通过对现有的比较有代表性的数据流聚类算法的优势和不足,从处理速度、聚类质量等各方面进行分析比较,发现基于网格的聚类算法处理速度快,基于密度的聚类算法易发现任意形状的聚类。本文结合数据流的特点以及对数据流聚类的要求,主要完成了以下工作:1.在线层通过对网格特征向量的更新,设计了一个按指数衰减的快照算法对快照信息进行存储,并实现了密度阈值的自适应。2.离线层对在线层保存的网格概要信息进行分析,对于其中的边界网格以网格单元的质心为中心点,划分得到一个子网格,使边界网格中的局部密集区域可能转化成密集网格参与聚类。3.在以上两点的基础了提出了一个新的基于网格的数据流聚类算法DSCAG算法,并通过实验进行验证,有效的提高了聚类质量。
其他文献
地震属性解释技术是石油勘探开发的主要技术。而三维相干体技术是近年来发展起来的一项快速实用的地震属性解释技术,它是研究三维数据体中的不连续性特征及相邻道地震信号之间
数值微分是一类研究如何利用未知函数在一些离散点上的观测数据来求得未知函数的导数近似值的方法.它是一个在Hadamard意义下的典型的不适定问题,在测量过程中的微小误差可能
多智能体系统的协同控制问题是一个跨学科研究问题,具有广泛的应用背景,比如编队控制、无人机飞行器、传感器网络等等.因而,受到了众多领域学者的广泛关注和研究.一致性问题
本文着重研究子流形的平均曲率流与微分球面定理.主要内容包括曲率积分条件下一般黎曼流形中超曲面与高余维子流形平均曲率流的延拓性定理,曲率积分拼挤(pinching)条件下欧氏
本文主要介绍了k-Hessian方程的Dirichlet问题以及障碍问题的研究成果及最新进展,对于k-Hessian方程的Dirichlet问题和障碍问题,本文主要做了两方面的工作,首先给出了粘性意
本文着重研究流形上几何与拓扑的若干问题,获得了非负常曲率空间形式中完备子流形的最佳微分球面定理,证明了一类黎曼流形的最佳微分球面定理,并将著名的Brendle-Schoen微分球面
有限体积元方法又称为控制体积法,盒式方法,广义差分法,是在有限差分方法和有限元方法的基础上发展起来的求解偏微分方程的重要数值方法.有限体积元方法既保持了有限差分方法