面向培养质量评估的加权聚类算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:maoht1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对海量数据进行深层次的分析利用推动了数据挖掘技术的发展,聚类分析作为数据挖掘中的关键算法,已应用到众多领域。基于聚类分析与培养质量评估在本质上的一致性,可将该算法应用于研究生培养质量评估领域。针对培养质量数据集多样性和模糊性的特点,本文提出了一种面向培养质量评估的特征加权聚类算法,可以对培养质量进行高效、精准地聚类分析。本文的主要研究工作如下:(1)深入研究HCM算法和MG算法的核心思想,针对其为硬划分且对初始聚类原型较为敏感的缺陷,引入隶属度函数将算法扩展为软划分。通过计算样本数据的最小距离与高密度点,对初始数值原型和初始分类原型进行有效地选择,提高了算法的稳定性和收敛速度。(2)本文提出了一种基于马氏距离的相异度计算方法。考虑样本特征关联和总体差异,利用样本分布计算马氏距离的协方差矩阵,引入比例系数计算聚类中已分类样本和未分类样本的概率统计,减小协方差矩阵的估计误差,降低高维特征下对样本数据的误分率。(3)利用改进的相异度寻找聚类质心的K近邻样本,在此基础上定义簇内离散度和簇间离散度计算数值特征的权值,采用互信息分析分类属性对聚类的依赖程度来计算其权值。对聚类质心迭代更新时,采用贪心策略并融合样本特征的权值矩阵寻找其近似最优解。在UCI数据集上利用多种算法设置对比实验,验证了本文算法的有效性。(4)构建培养质量评估指标体系,基于该指标体系进行数据采集和极差正式化处理。利用本文算法对培养质量数据集进行聚类实验,分析培养质量的分布比例和评估要素的权重变化。实验结果表明,该算法可以挖掘提升培养质量的关键要素,避免了评估过程的主观性。
其他文献
知识图谱是一种语义化知识库,其中实体被表示成节点,关系则由边表示。一个典型的知识图谱通常将知识描述为多关系数据,并以三元组(头实体,关系,尾实体)的形式表示。虽然知识图谱存在大量的实体和事实数据,但是许多大规模知识库仍不完整,并且缺少大量的真实三元组。针对大型知识库中常见的事实三元组缺失问题,研究学者提出很多知识图谱补全模型。本文主要研究知识图谱补全技术,通过对国内外相关知识图谱补全工作的全面考察
学位
特征选择技术是数据预处理步骤中最重要的操作之一,它可以提高数据分析中聚类、分类和信息检索等任务效率。现如今大数据时代的到来,各个领域的数据信息呈喷发式增长,导致越来越多高维的数据集出现。此时,数据预处理过程中利用特征选择去除与后续算法不相关的特征或冗余特征就显得尤为重要。有监督和半监督的特征选择方法的研究往往依赖样本的类别信息,而现实环境中数据的类别信息获取通常很困难。因此,不需要依赖标签信息的无
学位
作为分类算法之一的k-近邻分类算法,它凭借自身的简单性和有效性被广泛应用到现实生活中。然而现实生活中的真实数据集都不可避免地包含噪声数据,这个情况会损害k-近邻分类算法的分类性能。同样的问题也出现在模糊粗糙集理论中,模糊粗糙集在计算模糊下近似时需要查找测试样本的唯一最近邻样本,这个步骤使模糊粗糙集的模糊下近似值受数据集中噪声样本的影响,并且对后续的特征选择起到负面的作用。本篇论文首先在k-近邻分类
学位
现阶段,数据的获取方式简单且多样化,在提升模型效果的同时也产生了高维数据易存在噪声样本的问题。进而使得特征选择任务和构造具有鲁棒性的分类模型成为目前的研究热点。其中,模糊粗糙集理论作为特征选择和分类模型的理论基础,已经构造出了相应的模型。传统方法由于利用单一样本间的模糊相似关系来构造模型,使得建模过程中忽略了全局的关系,并且模型存在着对噪声敏感的问题。最终影响了模糊粗糙特征选择及相关分类模型的性能
学位
全媒体时代网络新技术的发展和应用,促进了新媒体技术与高校法治教育的深度融合,客观上推动了高校法治教育模式的变革。全媒体时代高校法治教育蕴含着拓展法治教育载体、改革法治教育模式、丰富法治教育方法和加强主客体间对话等价值,通过探索实现“媒介技术+法治教育”的模式转化,要在加强社会主义核心价值观的价值引领、完善协同育人体制机制和提升教育主客体媒介素养等方面推进具体实践,加强高校法治教育立德树人的质效。
期刊
分类任务作为机器学习中的重要课题之一,在许多方面已经得到了广泛应用。基于数据引力的分类方法由于模型简单高效而愈发受到关注,而大多数基于数据引力的分类方法在训练时通常不考虑数据特征的质量,平等的利用所有数据进行训练,因此影响了模型的训练结果。另外这些方法大都采用的是整体累加求和的计算方式进行分类,这种做法可能会导致样本间的冗余表达和信息丢失而导致误分类。为了解决这些问题,本文首先提出了一种以不一致性
学位
模糊推理已成功应用于多个领域,包括模糊专家系统,模糊决策分析,模糊模式识别等。在模糊推理系统中,当模糊规则库密集时,即规则的前件完全覆盖输入论域时,传统的模糊推理方法(即合成推理)可以获得相应的结论。当模糊规则库中包含“空隙”,即在稀疏规则库条件下,给定的观察值不与规则库中的任何规则前件部分重叠,采用合成推理方法无法匹配任何的规则,并且不能得出任何结论。在这种情况下,利用模糊规则插值法可以实现模糊
学位
图像生成是机器学习领域的一项研究任务,其目标是学习数据潜在分布,从而产生能够以假乱真的高质量图像样本。目前研究者们提出了很多生成模型应用于图像生成任务,并且已取得一定效果。但是,如何生成高质量的数据样本仍然是计算机领域不断追求的目标。目前,有关图像生成方法主要存在以下两个难点:一方面,生成图像样本模式单一,无法完全覆盖训练图像样本的所有模式,即出现模式损失问题;另一方面,由于模型设计本身存在固有的
学位
近年来,随着数据挖掘技术的日益成熟和离群点检测研究的持续深入,离群点检测研究已经在欺诈行为识别、网络恶意入侵检测和医疗健康检测等多个领域得到了广泛的应用。离群点检测技术虽然在理论研究和应用系统构建方面已经取得了很大进步,但是在无监督和半监督离群点检测中,仍存在算法对数据的适应性差和对数据信息利用不足等问题,还需开展深入研究。基于上述背景,本文针对无监督和半监督离群点检测中的问题,开展了以下研究工作
学位
汽车行业正处于智能变革的时代,自动驾驶可以提供更安全、更节能、更高效、更舒适的出行体验,毫无疑问是国际公认的未来汽车发展方向。其意义不仅在于该行业的技术升级,更会带来全球化供应链和产业生态的革新,是各国必争的战略高地。随着深度学习和计算机视觉技术的兴起,自动驾驶为提升交通安全与效率提供了新的解决方案。其中视觉与红外相机为自动驾驶技术中所有传感器里最被看好也是最有发展潜力的,如何快速准确得识别定位行
学位