【摘 要】
:
现在的我们生活在数据时代,数据已经处在我们身边的每一处,且以爆炸式的的方式在增长,甚至已无法计算,那么如何从这么多数据中获取我们所需要的潜在有用得到知识,来帮住人们
论文部分内容阅读
现在的我们生活在数据时代,数据已经处在我们身边的每一处,且以爆炸式的的方式在增长,甚至已无法计算,那么如何从这么多数据中获取我们所需要的潜在有用得到知识,来帮住人们做出准确的判断,此时我们就有必要来挖掘这些数据。在数据挖掘中,比较重要的一种数据分析方式是聚类算法,其在研究领域十分受到研究者的青睐,但还是存在一些缺陷,这就需要更进一步的改进算法来弥补这些不足,且对解决社会实践中遇到的难点也具有非比寻常的价值。本文主要以传统聚类算法中的相似度测度为基础,探讨了以欧氏距离作为相似度测度对一些特殊数据集聚类时的不足,主要讨论了现已提出的基于流形距离为相似度测度对特殊数据集聚类的优势,当然也存在缺陷,在这里就更进一步研究了粗糙集、蜂群算法等的实质,并在此基础上作改进然后与改进的流形距离相结合,以改善原来算法的性能。主要工作如下:(1)针对K-means算法的初始聚类中心随机选取,将流形距离作为相似度测度时其参数在表现数据集的全局一致性方面有缺陷等问题,本文引入粒计算理论中的知识,对数据集的属性进行划分,随后根据最大最小距离的方法选取代表点;然后再利用流形距离及准则函数得到最佳的初始中心并得到最终聚类结果。实验结果表明:该算法在运行时间上减少了并在数据的全局一致性上得到了很好的体现。(2)现在提出的以流形距离为相似度测度的聚类算法主要是针对具有“绝对流形”分布特点的数据集聚类,没有考虑到这种分布为“相对流形”的数据集,于是本文根据粗糙集的特点,首先对数据集的属性进行划分然后根据最大最小距离来选择聚类中心,再在粗糙集中,用流形距离代替欧式距离对数据集进行聚类。实验结果表明:该算法对“相对流形”数据集具有较大的改善。(3)为改进原有的基于流形距离的聚类算法性能,本文将改进的流形距离作为相似度测度,并结合人工蜂群算法,对数据集进行二阶段聚类。算法首先由局部密度、近邻选择等对数据集粗归类,然后通过改进的蜂群算法对数据集精归类。实验结果表明:数据集聚类效果得到很大的提升。
其他文献
随着计算机和网络技术的发展,许多面向海量数据的大型应用纷纷涌现,这使得硬件存储容量的需求大幅增加,同时也带来了能源消耗过快的问题。本次设计针对大量数据存储与能源消耗之间的矛盾,设计了大规模硬盘组嵌入式能控软件及状态反馈系统的设计。本文设计的系统控制的是支持热插拔的硬盘,设计方案是在不切断硬盘数据线的基础上将硬盘电源线断开接在继电器的输出端,用继电器实现对硬盘电源线的控制。使用者对嵌入式控制器发送控
虽然烟包企业近几年发展迅速,多数企业基本实现了流水线生产,产品生产也逐渐实现了自动化,但由于企业车间还是传统人工统计数据模式,各级管理人员和职能部门缺乏系统管理,车
21世纪以来,中国经济持续快速发展,经济新常态发展特征日益明显。在经济新常态的发展态势下,适度扩大内需,促进供给侧改革的深入推进,对于稳增长、调结构、惠民生具有重要作
目的:观察中药分期治疗过敏性紫癜性肾炎的临床疗效及对人体免疫方面的影响。方法:将40例入组患者按就诊次序,随机分成两组,对照组(20例)和观察组(20例),并随机挑选20例健康儿童设为检验外周血免疫检测的正常组。对照组予以激素+西医常规治疗,观察组予小剂量激素+中药分期治疗。以4周为一个疗程,3个疗程后,观察两组患者的疗效,并记录治疗前后尿蛋白、尿潜血、尿红细胞、尿微量白蛋白、免疫球蛋白(Ig A
伴随经济社会的不断发展,基于合作共享的消费模式被越来越多消费者所接受。同时,智能硬件及移动设备的普及使得社会资源和任务请求得以高度聚集,极大的促进了共享模式在社会
为加强贵州省生源地助学贷款学生对诚信及还款等相关知识的学习,提高其诚信还款意识进而降低贷款违约发生,2012年实验室开发团队根据贵州省相关资助部门的需求开发了一套“助
在火电站和核电站系统中,管道是输送高压蒸汽的重要工具,在电站系统的日常运营和风险分析中承担着重要的功能。高压蒸汽作用下,管道中的高速运动水团(弹状流)可以对管端结构(例如弯头、孔板、三通或者部分关闭的阀门等构件)造成强烈冲击。在这种高强度冲击荷载作用下,管道内部构件极易遭到破坏,管道外部的支撑也可能因过载而失效,从而严重危害电站系统的安全运行。因此,深入研究弹状流的高速冲击特性及其对结构的影响机制
随着互联网的飞速发展,海量信息产生并存储于互联网信息池中。快速、高效地从互联网中获取所需信息变得越发困难,“信息过载”问题日益严重。针对此问题,人们提出了推荐系统
低碳供应链协调的关键问题之一是帮助企业在碳排放限制下实现生产决策的最优化,即在既定的碳排放政策限制下使整个供应链达到产量、利润和成本的最优以达到供应链的协调。供
实现供电过程中各种生产资源的优化配置,以此保障整个供电设备系统的有效运行,并在此基础上保障用户用电在质和量上的要求,并同时能够有效减少供电各个环节中的运营代价,以此