混合属性数据集异常检测新方法

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:enjoyyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然界、人类社会和数据集等领域中,存在着许多不平凡的时间或对象,这些不寻常的事件或对象具有非凡的重要性,有可能导致发现新的信息和知识。这些颇有价值的信息和知识没有得到充分的开发和利用,这就迫切要求人们采取有效的措施对异常所隐含的知识进行挖掘,从而获取有用的信息和知识,异常挖掘技术就应运而生了。随着异常检测研究的不断发展,提出了很多的不同应用领域的算法,但这些算法在参数自动化、处理混合属性数据集差异性度量和阈值设定上存在一定的问题,影响了算法的准确率和效率。   本文从差异性度量和异常因子两个方面加以改进,提出了一种基于混合属性的局部密度异常检测方法。对于混合属性差异性度量,采用对数值属性和分类属性分别处理其差异性,最后进行组合。数值属性的差异性度量采用欧几里德距离公式,分类属性差异性度量采用加权海明距离公式,权重定义为各对象间分类属性不相等的属性值的个数。最后将两种差异性度量相加,得出的结果除以属性的个数,形成最终的属性上的差异性度量的平均值,作为处理混合属性数据集中对象之间的差异性度量。对于异常因子的定义,采用计算混合属性数据集中对象间的局部密度和基于邻域的密度因子,最后的异常因子是由两者的乘积求得,能够很好的区分各个对象的异常程度,并根据局部密度和异常因子进行阈值的设定,根据此阈值可以灵活的求解异常对象。通过理论分析和在UCI数据集上的实验验证证明,提出的基于混合属性的局部密度异常检测算法在单维和多维的数据集上达到了预期效果,能够准确的检测混合属性数据集中的异常,减少了算法运行的时间,检测率高。
其他文献
教学质量评价是中小学教育教学管理的重要部分,从一定程度上说,中小学教育教学是我国人才培养的基石,直接关系到未来人才的质量和数量,对贯彻教育部提出教育教学新理念的实现有一
视觉信息(如颜色、深度等)在视觉中枢的处理过程,至今仍然所知甚少。在视皮层中已发现了对某种颜色或某一个深度有特异反应的细胞。但资料仍然是零碎的,为了透彻地认识视觉的
数据预测指的是根据现有数据的基础估计和推算未来数据的过程。随着互联网技术以及数据库技术的迅速发展,人类进入大数据时代。近几年移动互联网和社交网络的蓬勃发展更是推动
随着科技的发展,三维模型开始进入我们的生活,它的出现让人们认识到二维影像已经不能满足他们在视觉上的需求。人们对逼真视觉的渴求使得三维模型在电影,医学,游戏以及工业设
随着企业信息化建设的推广,企业信息化系统产生海量的历史数据。海量数据造成的存储容量不够、信息检索效率低下、潜在价值难以挖掘等问题成为制约企业信息化发展的瓶颈。因
随着科技的飞速发展,视频监控技术也随之成熟,而人形识别技术是现代视频监控系统的核心技术之一。人形识别对智能视频监控技术具有十分重要的理论价值和应用意义,人们丌始日
VME(VersaModuleEurocard)总线是一种通用的计算机总线,它定义了一个在紧密耦合(closelycoupled)硬件构架中可进行互连数据处理、数据存储和连接外围控制器件的开放式架构。由于其
目标跟踪具备重要的科研价值,且被普遍应用于视频监控、智能交通等之中,近年来一直都是机器视觉研究当中的热点问题。针对目标跟踪问题,当下已提出众多研究算法。虽然这些跟
目前国内大部分园林管理部门已建立了园林信息管理系统,并积累了大量的管理信息数据,但能够提供有限的关于管理决策的全局信息却非常缺乏。在开源节流成为各级单位管理主题的情
在无线通信技术不断发展的今天,群体机器人技术的研究成果也突飞猛进,这两者之间的有机融合引起了相关学者的广泛关注,群体机器人的功用体现在生活的方方面面,多应用在条件较为复