【摘 要】
:
当前,聚类分析是国际数据挖掘和机器学习领域中的研究热点之一。作为一种较新的聚类分析方法的谱聚类方法具有传统聚类方法不具有的许多优点,如谱聚类方法简单直观、容易实现
论文部分内容阅读
当前,聚类分析是国际数据挖掘和机器学习领域中的研究热点之一。作为一种较新的聚类分析方法的谱聚类方法具有传统聚类方法不具有的许多优点,如谱聚类方法简单直观、容易实现、能得到全局最优解和能对任意形状的数据空间进行聚类分析等等。传统谱聚类方法以关联矩阵为基础,构建Laplacian矩阵,从而计算出矩阵的特征值和特征向量,接下来根据某种规则选取一个或多个特征向量进行聚类分析。然而,上述过程至少存在两个亟需解决的问题,一是,如何设置构造关联矩阵所需的尺度参数;二是,直接对Laplacian矩阵进行特征值分解的计算复杂度高达O(n3)。这两个问题制约了传统谱聚类方法在实际中的应用。为了改进谱聚类算法,本文作了如下工作:(1)研究表明,低秩逼近技术和采样技术一样可以解决矩阵的特征值分解的计算复杂度高的问题,而且低秩逼近技术的逼近误差要低于采样技术。为此,本文将低秩逼近技术与传统谱聚类算法结合起来提出了一个新的谱聚类算法,命名为基于低秩逼近技术的谱聚类算法。实验结果表明,新的算法能够在降低算法的逼近误差的同时,取得较高的执行效率和较好的聚类效果。(2)虽然低秩逼近技术和采样技术可以大大的降低谱聚类算法的计算复杂度,但是二者均基于抽样技术。众所周知,在抽样技术中无论样本点是被随机抽取或是采用其它较复杂的方法抽取,这些样本点均不能够完全地代表整个数据集合且不能正确地捕获到整个数据集合的几何结构。因而,需要引入不涉及采样技术的其它手段来获得谱聚类的特征空间。为此,本文将通勤时间与传统谱聚类算法结合起来提出了一个新的谱聚类算法,命名为基于通勤时间的谱聚类算法。实验结果表明,新的算法能够在保证有较高的执行效率的同时取得更好的聚类效果。(3)本文对一个基于Nystrom逼近技术的谱聚类算法作了改进,使其理论基础更加完善,执行效率更高。
其他文献
真空电弧的物理过程复杂,学界针对电弧的不同放电阶段、放电区域,提出了多种描述电弧的模型。本文选择真空电弧的双磁流体动力学模型,完成了对真空电弧的物理建模,实现了物理模型的求解,并对真空电弧的物理特性以及影响因素进行了研究。论文根据真空电弧的特性建立了双磁流体方程组。论文把电弧当成离子与电子组合的双流体,在流体的动量方程加上洛伦兹力和电子压力梯度的作用,在能量方程中加入粒子碰撞、焦耳加热以及热辐射带
为建立医院医德医风长效机制,改变过去由人工调查方式,利用网络信息技术为支撑,构建以病人为中心的两级医德医风监督管理信息平台,有效解决针对各类病人及医院工作人员对医德
在体育教学中面对各种各样的学生,首先要做到正确认识和承认差异,不要用“全面发展”来抹杀个体差异;其次要做到尊重差异,不能无视和忽略差异,在教学中“一刀切”;然后要兼顾好差异
氧化应激是体内活性氧化物产生多于清除的氧化还原反应失衡的病理状态。对胰岛素抵抗的发生发展起着关键性作用。本文综述了氧化应激致胰岛素抵抗的信号传导途径,旨在为胰岛
碳排放是影响全球变暖的重要因素,而农业碳排放是碳排放的重要组成部分,因此研究农业碳排放的现状及其演变模式的驱动因素对农业碳减排具有重要意义。本文在测算了1997-2016年中国31个省(市、区)农业碳排放量的基础上,分析了农业碳排放的整体趋势、结构特征以及区域间的差异。利用核密度估计分析了中国农业碳排放量的动态演化趋势,利用泰尔系数嵌套分解和空间自相关分析法探究了中国农业碳排放强度的时空差异。通过
卤素离子以及金属离子的痕量检测对人体健康以及生态环境均具有重大意义,因此受到了极大的关注。在诸多检测方法中,荧光检测法具有成本低、响应时间短、操作简单、选择性和灵
目的探讨正常妊娠妇女孕4~7周孕囊大小、血β-hCG水平与孕龄的关系,以为异常妊娠的诊断提供依据。方法选取2011年7月—2012年7月于该院进行检查的587例孕4~7周的正常妊娠孕妇
环己醇是生产医药、涂料和染料等重要化工产品的中间原料。国内外生产环已烯方法主要是环己烷氧化、苯酚加氢和环己烯水合。从直接水合和间接水合出发介绍环己烯催化水合制环
五月的北京和风拂面,鲜花灿烂。2009年5月15日,中国共产党与社会党国际共同举办的可持续发展问题研讨会如期举行。来自五大洲的朋友们齐聚一堂,怀着关切人类命运的拳拳诚意和切
目的:研究黄芩苷与盐酸小檗碱在大鼠小肠吸收的相互作用。方法:采用大鼠原位灌注模型研究药物配伍前、后大鼠小肠吸收动力学特征。结果:黄芩苷在配伍盐酸小檗碱前、后,其吸收