【摘 要】
:
离群点检测是数据挖掘领域中的热点问题之一,可以在庞大数据中挖掘出极少包含具有关键信息的数据,在日常生活和工作中应用十分的广泛。故离群点检测得到了国内外诸多学者的热切关注和研究,并提出了大量的离群点检测方法。本文深入分析了基于密度的离群点检测方法,对该方法在具有不同特征数据集上存在检测精度低,误报率高的问题提出了改进策略,旨在提高离群点的检测精度。本文的主要内容分为以下三个部分。
首先,本文针对LOF算法对于未知离群点个数的数据集的参数敏感性问题,和在密度分布不均数据集,不规则形状数据集上检测精度
论文部分内容阅读
离群点检测是数据挖掘领域中的热点问题之一,可以在庞大数据中挖掘出极少包含具有关键信息的数据,在日常生活和工作中应用十分的广泛。故离群点检测得到了国内外诸多学者的热切关注和研究,并提出了大量的离群点检测方法。本文深入分析了基于密度的离群点检测方法,对该方法在具有不同特征数据集上存在检测精度低,误报率高的问题提出了改进策略,旨在提高离群点的检测精度。本文的主要内容分为以下三个部分。
首先,本文针对LOF算法对于未知离群点个数的数据集的参数敏感性问题,和在密度分布不均数据集,不规则形状数据集上检测精度低的问题进行了分析,提出了一种相似度剪枝和邻域密度的离群点检测算法。该算法通过重新定义邻域密度解决参数敏感性问题;提出相似度的概念用以刻画数据对象之间的相似程度,反映数据对象的整体分布情况,更准确地对数据对象进行剪枝;用求交集的数学方法,进一步提高离群点检测的精确度,降低误报率。
其次,对基于密度的散乱数据局部离群点检测算法LDC进行了分析,存在在含有一小部分散乱数据的数据集中检测精度并不高的问题,提出了一种数据场势值期望和均方差的离群点检测算法。该算法通过I_DBSCAN聚类算法对数据集进行预处理,解决原有DBSCAN聚类算法的参数敏感性问题;根据数据场的特性,用数据场势值期望和均方差重新刻画分散程度的概念。算法既能解决LOF算法在散乱数据集中发生误判的情况,又比LDC算法具有更好的检测结果。
最后,在UCI真实数据集和人工合成数据集上对算法进行验证,并与已有算法进行对比,实验结果验证了本文提出的两种算法的有效性。
其他文献
【摘 要】 中华传统文化博大精深,内涵丰富,传统文化是对学生进行道德教育的重要内容。传统文化在学校德育教育中的作用日显重要,通过具体的活动形式把弘扬中华传统文化,传承中华美德渗透到学校教育的方方面面,让学生深刻地体会中华传统文化的魅力,养成良好的道德品格,实现自我完善、自我发展。 【关键词】 传统文化;中华美德;道德讲堂 【中图分类号】G63.21 【文献标识码】A 【文章编号】2095-30
【中图分类号】G633.21 【文献标识码】B 【文章编号】2095-3089(2015)25-0-01 音乐教育是通过对人的情感的培养达到影响人的审美观、人生观和价值观的目的。它通过本身所具有的育人功能,可以启迪学生的革命理想、陶冶高尚情操、培养优良品格、发展形象思维、开发智力、促进身心健康,对于建设社会主义精神文明,培养德、智、体、美、劳全面发展的一代新人具有重要意义。提高教师自身素质,做一
在我们的日常生活中,水资源的安全问题面临着严峻的挑战,关于水体浊度的研究在实际生产生活中起着非常重要的作用。传统的关于水体浊度的检测方法存在着实验操作复杂、仪器设备昂贵、检测精度低以及易受外界影响等弊端。为了解决现有方法中存在不足,引入新的研究方法十分必要,本文基于无源感知技术对水体浊度进行检测,以实现更加高效、高精度的实验为目标,对水体浊度进行检测。
首先,针对无源RFID信号在水体传播过程,对信号在水体中的传播路径的特征进行分析。在分析过程中,有两种不同的情况,分别是没有悬浮物和有悬浮物。对
【摘 要】 班级是学校的基本单位,班级文化是校园文化的重要组成部分,良好的班风、学风对学生发展起到潜移默化的作用,利于学生的全面发展。班级文化主要包括物质文化、精神文化、制度文化。物质文化指班级内外形成的物质形态;精神文化以情感、价值观、班级精神为主要表现形式;制度文化是班级成员共同遵守的行为规范。本文通过对班级文化的背景、实施策略、实践意义的分析,充分认识到班级文化的育人作用。 【关键词】 班
【中图分类号】G63.23 【文献标识码】A 【文章编号】2095-3089(2015)25-0-02 从2007年以来,铜鼓经历了五次重大教育活动。2007年的第一次省级教育综合督导评估、2010年承办宜春市第二届体育艺术节、2011年省级义务教育均衡发展示范县督导评估、2013年第二次省级教育综合督导评估、2015年国家级县域义务教育均衡发展督导评估。在这五次重大教育活动中,铜鼓取得了200
【摘 要】 目的:探讨大学生手机使用现况,为学校干预提供依据。方法:采用分层整群抽样,对广州市1所技工院校2260人进行匿名问卷调查。结果:技工院校高职学生手机依赖率为27.1%。其中男生30.5%(387/1267),女生22.2%(198/890)(χ2=18.209,P=0.000)。依赖学生在使用手机看小说、电影,QQ微信等网络沟通,查找学习资料、小游戏的检出率有显著差异。他们在认为使用手
云计算基于互联网有效地聚集了虚拟化计算资源,并利用聚合后的数据为不同需求的用户提供各种信息服务,显现出动态、高性价比和弹性规模扩展等特色。但同时也伴随着极高的能源消耗。为了避免云数据中心由于虚拟机的调度不当,引起资源和能量浪费,云供应商和云用户服务利益失衡等,在信息完全可视情形下,基于不同的网络业务,研究云系统在休眠模式下的云用户最优接入阈值策略。
首先,针对非实时性网络应用,偏向节能要求较高的云系统,在信息完全可视的情形下,提出基于周期性休眠机制的云用户接入阈值策略。通过求解休眠状态与唤醒状态
目前,协同过滤推荐系统中的攻击行为逐渐向隐蔽性强攻击效果明显的群组攻击策略发展。与个体攻击相比群组攻击能快速改变推荐系统为用户制定的推荐列表,严重影响推荐系统的可信度。因此如何高效地检测出群组攻击行为成为推荐系统安全领域急需解决的问题。为了有效减少群组攻击对推荐系统的不良影响,国内外研究学者提出了很多检测算法。但已有的有监督检测算法易受攻击类型的约束,无监督检测算法一般需要先验知识保证有效性,并且群组攻击的攻击策略多样,隐蔽性较强现有的攻击检测算法很难检测到这种多策略攻击。针对这一问题,本文从群组攻击的本
传统的推荐算法通常被数据稀疏和冷启动问题所困扰,知识图谱的提出和图神经网络(GNN)技术的发展为解决这些问题带来了新的思路。由于知识图谱中包含大量的人类知识信息,以及信息间的潜在关联并且它还具有很好的扩展性,而GNN方法则可以很好地提取这些潜在信息。现有的基于GNN和知识图谱的推荐算法利用GNN处理知识图谱并将其做为辅助信息引入推荐系统,可以有效的解决冷启动和数据稀疏问题。然而,这些方法在邻域采样和邻域聚合两部分设计比较简单,且忽略了在推荐系统中同样有重要价值的用户信息,导致推荐效果一般。
本文
随着互联网和通信行业发展的日趋成熟,由于当前通信可用频谱的短缺,而高频段的毫米波达不到合理的利用率,为了提高这一频段资源的利用率,解决现存在的频谱不足的问题,同时还要满足对未来海量数据的高速率传输要求,提高网络的传输效率。而且无线网络的密集部署引发了巨大的能耗,以及网络密集化部署所产生的频谱方面的提升和能效降低之间的矛盾,基于各方面考虑因素,无线网络的节能设计已经是必然趋势。考虑到上述面临的问题,从而需要进行系统能效优化,根据不同通信系统的情况做出分析,本文的主要内容有以下几点。
首先,针对毫米