基于网格的聚类算法和孤立点技术的研究

被引量 : 0次 | 上传用户:burningDNA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的数据中提取有趣的、非平凡的、蕴涵的、先前未知的、而且是潜在有用的信息模式。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的5—10年内,数据挖掘将在中国形成一个新型的产业。聚类分析是数据挖掘中一项重要的技术。聚类的任务是把数据集中的对象组成多个有意义的子类,在同一子类中的对象彼此相似,不同子类中的对象不相似。从另外一个角度看待聚类分析就是孤立点的检测技术,其研究对象是数据集中偏离绝大多数对象的很小一部分数据。在许多KDD应用中,研究孤立点比研究聚类更有用、更重要。因为,在某些应用领域中研究孤立点的异常行为能发现隐藏在数据集中更有价值的知识。聚类和孤立点检测是两个相辅相成的方面,在聚类的过程中要决定如何处理孤立点的问题,寻找孤立点有时要使用一些聚类的方法。人们通过聚类或孤立点的分析,识别密集的或稀疏的区域,从而发现全局的分布模式,以及数据属性之间有趣的相互关系。目前的聚类技术和孤立点检测技术已经广泛应用在如数据挖掘、统计学、机器学习、空间数据库技术、生物学以及入侵检测和天气预报等等相关领域中,取得了很大的成功和实用价值。本文在分析了基于网格的聚类算法的思想和方法的同时,针对目前网格算法存在的一些缺陷提出了基于覆盖网格的聚类算法。并通过综合数据集上和真实数据集上做了大量的对比实验来验证其算法的正确性。试验结果表明:基于覆盖网格的聚类算法能够准确,有效的发现任意形状,大小的聚类。同时在执行效率和精度上也比其它的聚类算法更加合理有效。同时,在分析研究现有的基于密度的孤立点检测算法基础上,针对其性能和精度上的不足,提出了一种新的度量方法局部偏差系数和基于局部偏差系数的孤立点检测算法。实验结果表明:该算法在发现孤立点的技术上对于同一类基于密度的孤立点检测算法在性能和质量上都具有很大的优势。
其他文献
目的分析腮腺良性肿瘤手术切除术的治疗效果。方法选取我院2015年3月~2018年1月期间收治的腮腺良性肿瘤患者38例进行研究分析。将38例患者分为两组,采取不同手段治疗,对比两
小米糠(MilletBran,MB)是小米生产加工过程中的主要副产物,虽然其营养成分丰富,但是开发和利用很少。其中含量较多的膳食纤维是很好的研究对象,因为膳食纤维被证实具有降血脂
介绍玻璃生产过程中的析晶现象,概述了温度对玻璃析晶的影响以及目前对玻璃析晶及性能的研究现状,最后对该方向未来的发展进行了展望。
我国正处于经济增长速度换挡期、结构调整阵痛期、前期刺激政策消化期"三期叠加"的新发展阶段,经济增速换挡已是一种"新常态"。在此前提之下,必然会产生一段"结构调整阵痛期"
作为虚词,古汉语的介词不能够独立地充当句子组成部分,它必须和名词、代词或名词性词组等组成介宾的语法结构,才可以在句子中充当某一句子部分,主要是充当状语或补语。然而,
会议
研究生物酶法提取红枣膳食纤维,并对提取温度、pH值和红枣用量等制备工艺进行优化。应用提取的红枣膳食纤维为原料,制备一种具有保护肠道健康的运动食品-红枣膳食纤维果冻。
1.1大量失血 主要是补充血容量,用于治疗因手术、严重创伤或其他各种原因所致的低血容量休克。补充的血量、血制品种类应根据失血的多少、速度和患者的临床表现确定。凡一次
近年来,随着我国经济的发展,各行各业都发生了翻天覆地的变化,电视新闻节目也在不断发展,民生类的节目也受到了更多人的关注,民生类新闻节目因此应运而生。如今民生类新闻节
<正>2016第十五届中国广告与品牌大会,于3月25日在上海万和昊美艺术酒店成功举办。烟花三月,万类争春之际,《中国广告》搭建平台,广告人唱戏,近五十位行业一线大咖相继创意发