离群点快速挖掘算法的研究

被引量 : 13次 | 上传用户:xiezhen120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点挖掘又称异常检测、小事件检测、例外挖掘、孤立点挖掘、偏差检测等。离群点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某些应用中,那些很少发生的事情往往比经常发生的事情更有趣、也更有研究价值。因此,离群点挖掘是一项重要且有意义的研究工作。目前,离群挖掘正逐渐成为数据库、机器学习、统计学等领域研究人员的研究热点。由于信息数据的高维性、复杂性和巨量性,传统的离群点挖掘方法不能很好地适用于高维大数据集,且往往所获得数据是不完整的、用户也只关心局部不稳定的数据,故对局部离群点的挖掘是本文的重点。离群点快速挖掘算法需要解决邻域的确定和离群点的判断这两个主要问题。采用属性划分方法将数据对象的属性划分为环境属性和行为属性,用环境属性确定对象邻域,行为属性完成离群点的判断。面向高维数据降维、对海量数据的剪枝是本文离群点快速挖掘算法的两个关键点。本文的主要贡献如下:1、分析了高维数据的特点,提出一种基于属性划分局部线性嵌入降维算法(Locally Linear Embedding based on Attribute division,Ad-LLE)。Ad-LLE算法不但继承了局部线性嵌入(Locally Linear Embedding,LLE)算法的平移、旋转以及缩放不变性,同时运用环境属性确定对象的局部邻域,依据对象其近邻分布的不同设置相应的邻居权值及邻居个数,在局部邻居的搜索过程中采用R*-树索引环境属性以加快检索速度,分析证明Ad-LLE降维算法更高效、更合理;2、提出一种基于Ad-LLE降维算法的离群点挖掘算法。将上面提出的Ad-LLE降维算法运用到离群点挖掘中,先通过Ad-LLE算法对高维数据降维,使得高维数据能够直接运用传统的离群点挖掘算法进行离群点判断,并与基于距离的离群点检测和其它降维算法运用在离群点检测中的检测效果进行比较,从检测结果来看,本文所提出的算法适合高维数据的离群点挖掘,且在降维和离群点有效检测上都表现出较好的性能;3、结合局部离群点及离群点本身的特点,提出一种离群点快速挖掘算法(Fastoutlier detection,Fast-OD)。人们常常只关注局部离群点,且离群数据本身在整个数据集中只占极少的部分,当数据集较大时,在整个数据集上挖掘离群点是困难、低效的。于是运用两个启发式剪枝策略对数据集中大量存在的非离群数据进行剔除,以提高算法的检测效率,实验证明本文提出的Fast-OD算法具有减少用户依赖性、降低算法复杂度、提高精确度和可伸缩性的优点;4、通过抽样学习获得全局近似离群度GnGlobal Threshold,GT)和局部近似离群度LTN(JI)(Local Threshold,LT)值。Fast-OD算法中计算GT和LTN(yi)时,若数据集中对象个数N很大时,用整个数据集进行计算很困难、很耗时,采用均匀抽样的方法来获取GT和ITN(yi)值,大大降低了算法的复杂度,理论和分析表明采用抽样技术使Fast-OD算法更能适用于高维大型数据库。
其他文献
学堂乐歌作为近现代音乐史的开端,对中国音乐的发展产生了重要的影响。本文从学堂乐歌产生的时代背景谈起,概述了学堂乐歌主要的创作情况,并对学堂乐歌主要的美学特征进行了
本研究采用心理学实证研究的方法探讨了企业员工组织政治技巧的结构维度及其相关研究。具体而言,本研究在文献检索与分析的基础上,通过访谈、开放式问卷、收集问卷项目、编制
在过去的三十年里,语料库语言学的发展大大促进了词语搭配的研究。以往的词语搭配研究主要侧重两方面:一是探讨搭配的界定和提取;二是研究词语搭配的语义、句法和语用限制。
自1977年以来介入技术在缺血性心脏病、先天性心脏病、瓣膜性心脏病、心律失常等领域获得了广泛应用。经皮球囊二尖瓣成形术(PBMV)已在全球广泛开展,并取得了良好的短期及中
田园综合体作为中国农村经济中供给侧结构改革的重要措施之一,是农村经济发展的新动力。目前田园综合体的建设推广面临着融资约束等问题,合理运用PPP(Public—Private—Partn
从传统的研究生导师的角色与职责出发,指出了研究生在就业困难的新形势下,导师在研究生职业发展教育中的角色地位转变的必要性与转变的方向,并提出可供借鉴的操作方案,即促进导师
词性标注是自然语言处理词法分析中一种较为成熟的技术,而自然语言处理在信息检索中又占有举足轻重的作用,将词性用于外文文献信息检索已有一定的研究,研究表明词性用于外文
基于构造与煤层赋存状态的关系,为进一步认识柴达木盆地北缘反转构造的控煤作用,依据反转构造识别原则,对柴达木盆地北缘各构造分区中典型煤矿区的地质剖面进行反转构造识别,
本试验旨在研究乳仔猪日粮中添加喷雾干燥血浆蛋白粉和酵母蛋白粉对其生产性能、断奶后腹泻率以及血清免疫指标的影响。试验选择18窝乳猪随机分为3组,每组6窝。处理1日粮中添
英国奇幻作家刘易斯的《纳尼亚传奇:狮子女巫魔衣橱》与基督教文化之间有着必然的联系。该作品与《圣经》两者之间,无论是在意象、人物还是在主题方面都存在着互文关系。正是