【摘 要】
:
离群点检测技术是数据挖掘研究中的重要分支之一,近年来,离群点检测技术在现实生活的各个方面都发挥了重要作用。目前国内外研究学者已经提出了许多离群点检测的方法。但是这些方法在检测离群点的性能方面仍然存在着精度不佳的问题。本文针对精度不佳的问题,对无监督的离群点检测算法进行了深入研究。本文的内容主要包括以下三个方面。首先,针对基于密度的离群点检测方法在高维空间中和对簇的边界检测精度不佳等问题,提出一种新
论文部分内容阅读
离群点检测技术是数据挖掘研究中的重要分支之一,近年来,离群点检测技术在现实生活的各个方面都发挥了重要作用。目前国内外研究学者已经提出了许多离群点检测的方法。但是这些方法在检测离群点的性能方面仍然存在着精度不佳的问题。本文针对精度不佳的问题,对无监督的离群点检测算法进行了深入研究。本文的内容主要包括以下三个方面。首先,针对基于密度的离群点检测方法在高维空间中和对簇的边界检测精度不佳等问题,提出一种新的基于密度的离群点检测算法。算法使用基于自适应带宽和梯度可达距离的改进高斯核函数的密度估计公式估计每个数据对象的密度,并依据对象密度的大小,获取每个对象的决策距离。使用决策距离与密度的比值刻画每个数据对象的离群因子,把离群因子数值较大的top-n个对象检测为离群点。提出基于决策离群因子的离群点检测算法,并对该算法的正确性和时间复杂度进行了分析。其次,针对现有无监督的离群点检测方法在高维空间下对局部离群点的检测精度不高等问题,提出一种新的局部离群点检测算法。算法使用改进的高斯核函数公式估计数据对象之间的相似性,将整个数据集抽象成一个有向图,图中的顶点表示各数据对象,顶点之间的权重表示对应的两个对象之间的相似性。依据相似性和对象的局部邻域结构推算出局部转移概率矩阵。结合马尔科夫随机游走过程,计算出平稳分布概率向量,将平稳分布向量中的各个值作为每个对象的离群值,把离群值排名靠前的top-n个对象检测为离群点。提出了基于马尔可夫模型的局部离群点检测算法,并分析了该算法的正确性和时间复杂度。最后,在合成数据集和真实数据集上对提出的算法与目前几种被业界认可的离群点检测方法进行了实验对比,验证了本文算法的有效性。
其他文献
新闻内容视频化、新闻宣传平台化、新闻推送实时化,已成为新闻宣传工作的新形态。新闻宣传工作在各种平台的信息推送中表达内容思想,新闻媒体的主要受众也在新闻宣传渠道的扩增中增多,媒体融合已成为新闻宣传工作的发展方向。新闻宣传工作该如何实现平台化、多样化发展,是新闻宣传工作者要重点研究的课题。
超导直流感应加热装置利用超导磁体产生的直流磁场在旋转的金属工件中感应涡流加热工件,较传统交流感应加热技术具有更高的效率,市场竞争优势大。该文在现有超导直流感应加热装置基础上提出一种双C型结构,较传统C型结构减少了铁磁材料的使用。针对该结构感应加热装置,通过研究气隙磁场分布对涡流损耗的影响,提出采用弧形气隙提升装置的加热效率。建立等效模型分析了直流感应加热装置起动转矩的影响因素,得到起动转矩随转速、
目的探讨电针结合艾灸治疗压力性尿失禁(stress urinary incontinence,SUI)的临床效果。方法选取2018年6月至2019年6月北京市昌平区回龙观社区卫生服务中心中医科收治的68例SUI患者作为研究对象,根据随机数字表法分为观察组和对照组,每组34例。所有患者均接受盆底肌功能训练,对照组加用电针治疗,观察组在对照组基础上结合艾灸,均治疗4周,分析两组患者的临床疗效、盆底肌力
体育课堂在阳光体育的背景下学生的快乐体验越来越多,例如,体育游戏在初中体育课堂中屡见不鲜。以体育游戏在初中体育课堂中的应用为研究对象,以江苏省海门市能仁中学为例,采用文献资料法、逻辑分析法、问卷调查法,对海门市能仁中学进行实地调查,剖析教师和学生对体育游戏的应用。研究发现体育游戏在初中体育课堂的实践应用价值大,具有很好的借鉴和推广价值,旨在对其不断完善和进步,辐射到其他兄弟学校,为提高初中体育课堂
目的探讨高危妊娠产妇产后母婴分离时的心理状态及造成其负面情绪出现影响因素。方法共200例高危妊娠产妇,回顾性分析产妇的临床资料,依据产妇分娩后新生儿是否转入新生儿重症监护室(NICU)实施母婴分离进行分组,其中未转入NICU、未经历母婴分离的118例产妇纳入A组,新生儿转入NICU、经历母婴分离的82例产妇纳入B组,比较两组产妇的心理状态以及其产生负面情绪的影响因素。结果两组产前焦虑的发生率、抑郁
高温超导磁储能(Superconductor Magnetic Energetic Storage,SMES)装置的稳定运行对其实际应用至关重要,高温超导(High Temperature Superconducting,HTS)磁体失超是威胁装置安全运行的首要因素。传统失超检测技术亟需解决的难点:一是HTS磁体局部失超时失超监测量的变化极小不易于监测;二是磁体失超电压受到电压扰动容易发生失超误判
在我国信息社会高速发展背景下,媒体技术的水平有了极大的提升,微信、微博、互联网等平台出现,改变了人们的思维模式和生活习惯,丰富了人们精神生活,为新闻信息传播提供了多种途径,基层新闻宣传工作也面临更多发展机遇与挑战。党和国家近年来也予以基层新闻宣传充分的关注与重视。融媒体的发展如何抓住这一机遇化挑战为动力是基层新闻部门所要思考的问题。只有切实搞好宣传工作,发挥自身优势,才能在新时期迸发出新活力。本文
小学体育教学是为学生体育素养和终身运动兴趣培养奠基的,使其乐于体育是小学体育教学的重要任务。而我们把体育游戏寓于其中,实施游戏教学法,不仅能培养学生学习兴趣,提高学生学习参与性、积极性,还能提高教学效果,培养学生多方面的运动素养。
数据挖掘能够发现数据之间内在的相互关系。K-means算法具有简单、快速,易于实现且对海量数据的处理也有高效性的优点,被广泛地应用于数据挖掘领域。但是使用K-means算法进行数据挖掘可能泄露用户的个人隐私,因此将隐私保护技术与K-means算法相结合,在保护数据隐私安全的前提下进行数据挖掘成为研究的热点之一。差分隐私模型对隐私保护有着严格的定义,因而将差分隐私应用到数据挖掘上可以抵御一些传统的隐
近年来,全国各地用电需求保持较快的增长,电力紧缺时有发生,电网运行压力不断增大,且我国南方多地于2020年底均推出“限电”措施。尽管目前通过有序用电能够保障用电秩序的稳定,但难免对工业生产造成一定程度的影响,若仅仅通过扩大发电机装机容量的手段会使得技术和经济方面面临较大压力。所以在智能电网不断发展地环境下,将更着重用户侧的用电行为特性的分析研究,面向不同居民客户提供个性化服务,科学合理指导客户用能