基于数据流的数据分析的研究

被引量 : 0次 | 上传用户:wnt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在归纳、总结了数据流研究的现状的基础上提出了一个在数据流上的快速有效的密度估计算法和一个在多数据流之间发现聚类关系的层次聚类算法.具体地说,该文的贡献有以下几点:1.提出了一个快速有效的数据流上的密度估计算法,该算法以传统的核密度估计算法为基础,利用核合并技术,以损失一定精度的代价大幅度减少算法的时间复杂度和空间复杂度.并对两种核函数的核合并过程进行了分析,计算出了核合并的误差上界.使得算法在能够有效的处理大规模的数据流的同时,得到相对准确的密度估计结果.最后通过大量的实验验证了算法的准确性和有效性.2.对层次聚类算法作了详细地分析,在数据流研究的环境中,提出了对多个数据流进行聚类分析的问题,以此发现数据流之间的相关性.这在证券分析、网络检测的环境中有着一定的实用意义.3.提出了动态聚类树的数据结构与相应的旋转调整算法,当数据流发生变化的时候不需要重新构造聚类树,而只需要对相关的节点进行局部的旋转调整就可以得到更新的聚类结果.并在此基础上提出了一种解决多数据流上聚类问题的的算法.
其他文献
家庭多媒体服务器是数字会聚、3C融合的产品.计算机、半导体设计和制造以及网络技术的飞速发展促进了家庭多媒体服务器的出现;信息家电的兴起加速了家庭多媒体服务器平台的研
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识.数据挖掘是信息技术自然演化的结果.目
分布式数据环境的信息交换和信息共享,复杂的分析型应用等都要求在前所未有的规模上集成数据。数据集成系统预先把数据从分布自治并可能异质的远程信息源中抽取出来,经过数据转
随着Internet的飞速发展,网上丰富的资源产生着巨大的吸引力。接入Internet、访问Internet成为当今信息业最为迫切的需求,但这受到IP地址的许多限制。新的IPv6一种很好的解决方
该文在总结归纳现有理论和技术成果的基础上,独立地完成了下列有特色的工作:(1)针对机会的"意外性"特性,用群体的隐式信念描述相对于单个agent的机会;(2)提出了两层概率模型
虚拟专用网(VPNs)是有效利用公用网络作为专用网的一种最有前途的方法。VPNs利用隧道技术,以很低的成本为远程访问、Extranet和Intranet应用提供了穿越公用网络的安全稳定的通
该文针对英文名词短语的指代消解问题,提出了一种基于最大熵模型的学习算法:1.我们利用少量的标注语料供最大熵模型训练,产生规则集,取代了传统的手工构建规则集的做法.该模
网络功能虚拟化(Network Functions Virtualization,NFV)将网络功能(NetworkFunction,NF)软件化并通过虚拟化的方式部署在通用服务器上,通过动态的服务编排和按需的资源调度有效
传统的内外存层次结构正面临着容量、能耗和I/O性能等方面的挑战。新型非易失性存储器(Non-Volatile Memory,NVM)具有集成度高、低功耗、非易失等优势,已引起学术界和工业界的广
该系统采用集中控制机制,通过设置的"控制中心"对DiffServ网的所有节点进行拥塞控制.应用"模糊控制"技术,根据拥塞点的实际状况和数据流的业务等级,进行模糊推理和运算,从而