基于距离和信息熵的不确定异常点检测研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:hot_way
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据收集与处理技术导致了大量的数据不一致和丢失,这样的数据通常是以不确定的形式出现。不确定数据的出现对传统的数据挖掘技术提出了新的挑战。作为数据挖掘的一项重要任务,异常点检测越来越引起研究人员的重视。但是,在传统的异常点检测算法中,数据多是确定的,或是没考虑数据的自然结构,导致检测出的异常点与实际有较大出入。因此,在不确定数据集上进行异常点检测有很重要的意义。本文就选择了从不确定数据集中检测异常点这一课题进行研究。首先,介绍了异常点检测的相关概念和形成原因,以及几种传统的异常点检测方法,接着介绍了不确定数据的管理,以及几种常用的处理不确定性的数学理论,并对连续数值型不确定数据作了简要陈述。其次,把传统的基于距离的异常点检测方法扩展到不确定连续数据上,定义了不确定数据异常点检测的相关概念,并设计了一个基于距离的不确定数据异常点检测的算法。再次,针对所提出算法时间复杂度高的问题,提出了一种基于信息熵的剪枝策略,用实例说明了剪枝策略的合理性,并对剪枝策略的时间复杂性进行了分析。第四,通过模拟数据的实验,验证了参数变化对剪枝算法的影响,并基于真实数据与原算法对比,检验了剪枝算法的效率和效果。
其他文献
本文对基于可执行文件的漏洞挖掘和利用技术进行了深入的研究和探讨。安全漏洞(Vulnerability)是网络攻防的关键。先进的漏洞挖掘和利用技术有助于研究者先于攻击者发现安全
本文设计了一个面向实时网络安全处理的密钥系统,该系统能高速地产生高性能的密钥,密钥产生的速度很好地满足了网络实时加密流加密的需求,并且产生的密钥随机性高,能通过FIPS
随着航空技术的不断进步,以及国际形势的发展变化,全球空中交通日趋繁忙和复杂,空域管理面临越来越大的挑战,尤其是在覆盖众多类型航空器的军事应用中。因此,大规模场景下多航空器
信息分布存储系统中需要复杂的访问结构控制以及被保护信息的多种属性标签。在传统系统中,为了实现访问结构控制,由一台服务器明文存储所以信息,并作为控制服务器接受信息的
随着信息技术的不断发展,需要保存和处理的信息量爆炸式增长,应用程序对存储系统的I/O性能提出了越来越高的要求。预取技术作为一种重要的I/O性能优化手段而被广泛地应用于各级
随着工程应用的范围和复杂度日益增大,人们对可视化的要求也越来越高,无论是电力系统、热力系统还是工作流管理系统,都习惯使用模型图来表示系统的组成结构或特定的工作流程
秘密共享是信息安全的重要组成部分,在重要信息和秘密数据的安全保存、传输及合法利用中起到了至关重要的作用。动态多秘密共享实现了参与者集合动态变化,完成了对多个秘密的
在各种图像分析和处理过程中,人们感兴趣的区域通常不是图片的所有内容,而是只是图像的一部分,因此,有大量研究者关注于人类视觉注意机制,并提出了一些计算模型,例如,Laurent
基于递归神经网络(RNN)的语言模型已经在很多语言生成的任务中取得了非常杰出的成果,然而模型主要关注的是如何减少字符层面的误差,却因此导致了对句子整体的忽视。一个行之有
随着多媒体信息处理技术的发展,图像数据呈快速增长趋势,为了有效管理和组织图像,基于内容的图像检索(CBIR)方法逐渐被人们所重视并成为快速检索图像数据库的核心研究领域。