基于剪枝的海量数据离群点挖掘

来源 :计算机科学 | 被引量 : 0次 | 上传用户:lsui321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于距离的离群点挖掘通常需要O(N2)的时间进行大量的距离计算与比较,这限制了其在海量数据上的应用。针对此问题,提出了一个带剪枝功能的离群点挖掘算法。算法分为两步:在对数据集进行一遍扫描后,剪枝掉大量的非离群点;然后对余下的可疑数据实施一种改进的嵌套循环算法,以每个数据点与其k个最近邻点的平均距离作为离群度,确定前n个离群点。在真实数据和合成数据集上的实验结果均表明,该算法在获得高命中率的同时仍保持低误警率。与相关算法相比,其具有较低的时间复杂性。
其他文献
在电磁学中,时域有限差分算法(FDTD)能够精确地模拟空间中电磁场的变化,在电介质器件设计领域得到了广泛的应用。众核(many-core)处理器片上计算资源丰富,对于计算密集型课题有较
快速增长的数据量使流媒体存储系统在降低能耗方面遇到严峻的挑战,而针对流媒体应用而进行的节能方法的研究还很少。在对流媒体存储系统的节能问题进行详细建模的基础上,定量
作为软件成本控制管理的重要措施,软件开发成本的估算技术已经成为软件工程领域的一个重要课题。当前基于复用的软件开发正在成为软件工程的主流,但将软件复用考虑进成本估算
为解决SCA和OSGi的结合在分布式环境下不能很好支持运行时组件模型动态管理的问题,在分析二者传统结合方式的基础上,建立了一种基于OSGi的SCA服务模型——DOSGi_SCA。DOSGi_S
片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的