基于质心投影波动和信息图的离群点检测算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:googto0726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据的爆炸式增长,利用数据挖掘技术获取数据中的潜在价值一直是一个重要的研究方向。离群点检测技术是数据挖掘方向中能有效挖掘数据潜在价值的一个重要组成部分,在网络入侵、欺诈检测、日志检测等领域有着广泛的应用。基于k近邻的离群点检测算法常用于检测存在复杂分布的工业数据集,但在数据中包含非球状类簇时,算法检测精度难以得到保证。基于图的离群点检测算法常用于检测数据之间有紧密联系的数据集,常用于银行类数据集,但基于图的离群点检测算法在检测该类数据时存在检测精度低、容易受k值影响的问题。针对上述问题,本文进行了深入的研究。首先,分析了基于k近邻关系的离群点检测算法的研究现状,在包含非球状类簇的数据集中,基于k近邻关系的离群点检测算法难以有效的刻画数据点的邻居分布,导致该类算法存在检测精度不高的问题。本文通过引入近邻树代替k近邻关系生成新的邻域集合,定义质心投影的概念用来刻画数据点与其邻居点的分布特征;并在数据对象邻居点逐渐增多的过程中,离群点和内部点质心投影变化不同,采用质心投影波动去衡量每个数据点的离群程度,进而提出了基于质心投影波动的离群点检测算法。其次,针对基于图的离群点检测算法需要外部输入参数和难以有效刻画数据点的局部和全局特征的问题,使用一种自适应阈值的方法获取每个数据点的局部邻域信息,以避免外界输入参数对算法的影响;利用获取的局部邻域信息和最小生成树分别生成局部信息图和全局信息图,用以精准刻画数据点的局部和全局特征;综合考虑数据的局部和全局特征进行马尔可夫随机游走检测离群点,进而提出一种基于信息图的离群点检测算法。最后,在人工数据集和真实数据集下,通过和一些经典的离群点检测算法进行实验对比分析,进而验证了本文所提出的算法能正确有效的检测出离群点。
其他文献
随着云计算、人工智能、移动互联网等快速地成长,全球的数据总量急速增长,数据的庞大性和复杂性有着日益增加的趋势,基于张量的建模与运算方法在许多科学和工程应用中正变得无处不在.考虑到张量数据中存在的结构特征(比如低秩性等),基于张量的正则化回归方法在数据挖掘、计算机视觉、信号处理、工程与统计、医学图像分析等领域中被广泛使用和推广.在一般最小二乘框架下,低秩张量回归问题得到了很好的研究.但是在实际问题中
学位
随着通信技术与智能设备的飞速发展,物联网系统在许多领域具有广泛的应用,已成为学术界和工业界的重要研究与应用领域。但随着物联网系统功能趋于复杂、应用领域不断扩展,物联网系统面临着应用复杂化,运行环境不确定等问题。物联网系统需要保证其在面对不确定性环境,物联网本身复杂的结构与通信,仍能保持系统的实时性和规范性,对外界的不确定因素进行正确的反应和处理,本文针对上述问题,对物联网系统运行环境中不确定性环境
学位
生物炭是生物质在缺氧条件下燃烧生成的一种固体物质,因其比表面积较大和阳离子交换能力较强,所以认为其能够增加土壤中有机碳的含量并保持土壤肥力。此外,生物炭含有大量醌基和芳环结构,能够充当微生物厌氧呼吸的电子供体或是作为微生物与重金属之间的电子穿梭体参与自然界铁的氧化还原,进而驱动砷的生物地球化学循环。砷的毒性和生物可利用性与其赋存形态息息相关,开展生物炭对砷及砷形态转化的研究极为重要。本文以生物炭对
学位
近年来,我国上市公司财务舞弊行为呈多发态势,且造假手法更加隐蔽,约60%的财务造假案件涉及虚假资金循环、虚构购销业务,严重损害了投资者利益。研究好上市公司财务舞弊的主要动因,有助于针对性地提出治理建议,提高上市公司的财务信息披露质量,营造健康的资本市场环境。基于此,本文选取了东方金钰这一近年来典型的财务舞弊案例,对上述问题进行了具体分析。财务舞弊是国内外学者共同关注的热点话题,财务舞弊手段方面,主
学位
我们置身于一个多感觉刺激的环境中,周围的很多物体和事件都包含多种感觉信息,要对这些物体和事件进行感知和识别,人类的大脑需要对这些多感觉信息进行整合。但是人类对于大脑如何整合多感觉信息从而影响感知和分类的神经机制还不了解。在本论文研究中,我们以小鼠内侧前额叶皮层(m PFC)为研究对象,系统研究了m PFC神经元对听、视信息的整合、分辨以及分类。我们首先训练头部固定的小鼠完成一项刺激诱导的二选一感知
学位
极大团作为一种重要的数据结构,在生物信息学、无线传感网络、社交网络等领域具有重要的地位和作用,确定图中的极大团挖掘由来已久,已经有了不少研究成果,但是在实际应用中,数据来源的差异和获取技术的局限性使得大量图数据具有不确定性,如何在不确定图中挖掘极大团成为研究者最新的挑战。现有的不确定图中极大团挖掘算法通常采用裁剪策略和基于MULE算法的递归回溯思想,在规模减小的不确定图中挖掘全部极大团,但由于该算
学位
随着移动智能设备数量的激增和计算密集型应用的涌现,结合云层、边缘层和终端设备层的边缘计算系统成为更适应当下需求的网络计算平台。将任务在端、边、云层之间进行合理卸载有助于提高用户的服务体验和系统的响应性能。根据不同的时延要求将用户设备产生的任务请求分为时延敏感型和时延容忍型两类,面向云-边-端三层架构,研究边缘计算系统中的卸载策略及性能问题。首先,面向时延敏感型和时延容忍型两类任务,提出基于任务分类
学位
近年来,供应链上游中小供应商在生产中存在的污染行为频频被曝光,对环境造成极大危害的同时也损害了核心企业的商誉。供应商分布广泛且成员复杂,因此供应链核心企业无法及时有效监管其污染行为进而采取相应措施;同时,资金短缺也阻碍了供应商的绿色转型。第三方环境信息平台的参与为供应商污染问题的有效治理提供了切入点:供应链核心企业可以借助平台提高监管其供应商污染行为的能力;同时,金融机构可以与核心企业合作开展考虑
学位
内存类漏洞是一种多存在于系统底层且危险系数极高的软件漏洞,此类漏洞常会造成拒绝服务攻击、计算机性能降低、程序崩溃等危害,它的代表性漏洞有内存泄漏、释放后重用和双重释放等类型。为了高效检测内存类漏洞,本文提出了基于特征切片与Bi-GRU的内存类漏洞检测方法,本文主要内容如下。首先,为了减少程序中与内存类漏洞特征无关的代码,提高检测的效率,本文采用图结构作为代码的中间表示形式。此过程提出了基于图结构的
学位
机器人操作技能学习是机器人研究领域的重要分支,随着人工智能技术的快速发展,深度强化学习算法被初步应用于解决此问题,但由于机器人操作技能学习任务稀疏奖励的特性,现有算法存在训练效率低及训练不收敛等问题。针对稀疏奖励问题,本文对现有深度强化学习算法加以改进,设计出更加高效的机器人操作技能学习算法,以提高机器人在复杂环境下的感知能力与自主决策能力,具体研究内容如下。首先,针对深度强化学习在稀疏奖励环境下
学位