【摘 要】
:
聚类是机器学习中一种重要的无监督学习方法,随着大数据技术的发展,聚类在很多领域得到了广泛的应用.密度峰值聚类(Density peaks clustering,DPC)由Rodriguez和Laio于2014年提出,是聚类分析领域近年来研究的热点算法之一.本文针对DPC算法从基于多核学习改进、半监督聚类扩展、在组合预测中的应用三个方面对其拓展,研究了如下三个问题:1)基于多核学习的密度峰值聚类算法
【基金项目】
:
国家自然科学基金(11971214—高维医学数据稳健分类及统计预测)
论文部分内容阅读
聚类是机器学习中一种重要的无监督学习方法,随着大数据技术的发展,聚类在很多领域得到了广泛的应用.密度峰值聚类(Density peaks clustering,DPC)由Rodriguez和Laio于2014年提出,是聚类分析领域近年来研究的热点算法之一.本文针对DPC算法从基于多核学习改进、半监督聚类扩展、在组合预测中的应用三个方面对其拓展,研究了如下三个问题:1)基于多核学习的密度峰值聚类算法;2)半监督密度峰值聚类算法;3)基于密度峰值聚类算法的组合预测模型.首先,DPC算法的聚类性能依赖于样本点局部密度估计的可靠性,目前关于DPC算法的研究大都采用单个核函数估计局部密度,如高斯核函数.由于数据的复杂性,单个核函数有时并不能很好的刻画数据的分布模式和数据间的相互关系且单个核函数及其参数的选取往往比较困难.论文以核学习理论为基础,将多核函数引入DPC算法,提出一种基于多核学习的密度峰值聚类算法,该算法利用核技巧将样本映射到高维再生核希尔伯特空间,在核空间中基于多核函数估计样本点的局部密度和样本间的距离.此外,为了确定单个基核函数的组合权重,论文以度量聚类性能的Beta CV指标作为聚类目标函数并采用PSO优化算法进行求解,算法的有效性在模拟数据和实证图像数据中得以检验.其次,DPC算法作为一种可实现快速聚类的无监督学习方法,仅使用无标记样本进行学习缺乏融合先验样本标签信息辅助聚类的机制.当数据集中包含少量标记样本时,DPC容易造成数据信息的浪费.论文基于类标签形式的先验样本信息将DPC算法扩展到半监督聚类,提出一种半监督密度峰值聚类算法.该方法将标记样本与DPC识别出的簇中心综合考虑并引入虚拟化标签以区分具有相同先验类别标签的不同簇,通过有意识扩大簇个数有效避免了潜在簇信息的丢失.簇合并过程中,仅将由虚拟标签标记的簇合并到与其最近的簇而不合并具有不同先验标签的簇,从而保证了聚类分析中先验样本标签信息的正确性.论文选取8个UCI数据集进行聚类分析,结果表明所提出的半监督聚类算法可以有效融合少量先验样本标签信息提高聚类性能.再次,基于DPC算法易于实现、计算效率高且可用于识别任意形状簇结构的优点,论文将DPC算法引入组合预测,应用DPC算法解决组合预测中单项模型的遴选问题,提出基于密度峰值聚类算法的组合预测模型.该模型基于时间序列数据,在应用CEEMD、SVM、GRNN以及优化技术PSO、GWO和PSO-GSA的基础上,通过分解—模拟—重构的方式构建候选单项模型集合.为了对候选单项模型进行聚类分析,该组合模型采用五种评价指标描述候选单项模型的预测性能,建立基于候选单项模型—预测性能评价指标的待聚类样本集合.通过应用DPC算法对所建立的待聚类样本集合进行聚类分析获取候选单项模型的簇划分,进而选取各个簇内MAPE值最小的单项模型建立线性组合预测模型.论文选取中国四个城市:武汉、重庆、厦门和大连的周PM2.5浓度时间序列进行数据分析,结果表明所提出的组合预测模型可以有效的选取单项模型构建高精度的组合模型.
其他文献
李家庄冶铁遗址位于山西省高平市李家庄村东,总面积近24万平方米。遗址密布坩埚碎片、炉渣、炉灰和少量铁块等冶铁废弃物堆积,最厚处达7米。坩锅数量丰富,与河南洛阳东周王城遗址和洛阳吉利东汉墓出土坩锅相似。采集的陶豆、绳纹陶片等具有东周两汉的特征。遗址时代约为东周两汉时期。李家庄冶铁遗址是晋东南地区冶金考古的重要发现,也为探讨晋东南地区东周铁器的来源提供了重要线索。
解决大党独有难题的根本在于中国共产党能够始终坚持和持续践行党的指导思想。中国共产党的指导思想系统规定了党的性质宗旨和初心使命,科学回答了中国共产党是什么、干什么、怎么干的根本问题,这是解决大党独有难题的思想基石。中国共产党指导思想中蕴含的解决大党独有难题的内在逻辑是:通过管党治党、全面从严治党始终保持党的先进性的性质、党的全心全意为人民服务的根本宗旨和党的不谋私利。中国共产党指导思想蕴含的三大思想
分析俄乌冲突中深度伪造技术应用的类型,以及深度伪造技术对国际信任体系、俄乌双方及其他行为体的影响,可以归纳出俄乌冲突中伪造技术应用的本质。这是冲突双方在认知领域的博弈:“双方国家行为体与非国家行为体”利用“选择性”的信息舆论,意图实现瓦解对方士气、重塑民众认知、赢得国际支持、影响对手行为,进而改变冲突进程的目的。针对数字化时代深度伪造技术影响认知的情况,需要更新的信息战思维,提升检测伪深度造技术的
本文主要利用变分法研究几类具有深刻物理和生物背景的非局部方程解的存在性、多解性以及唯一性,并分析了解的性质.本文主要分为以下几方面内容.首先,考虑如下带周期磁势和临界非线性项的分数阶Choquard方程ε2s(-Δ)A/εsu+V(x)u=ε-α(∫RN|u(y)|2s,α*/(|x-y|N-α)dy)|u|2s,α*-2u+ε-α(∫RNF(y,|u(y)2)/(|x-y|N-α)dy)f(x,
<正>2021年12月31日,市场监管总局、国家标准委发布第17号国家标准公告,其中包括新版《小麦粉》(GB/T 1355-2021)国家标准。这是该标准的第二次修订,历次版本依次为GB 1355-1978、GB 1355-1986;2017年,标准性质由强制性改为推荐性,标准编号改为GB/T 1355-1986。新标准将于2023年1月1日起正式实施。为帮助小麦粉加工企业、消费者、
从根本上说,“大党独有难题”是党在“历史这么长、规模这么大、执政这么久”的条件下,在面临极为复杂的环境下,如何依靠党自身的力量来保持党的先进性和纯洁性,巩固党的长期执政地位的问题。党的十八大以来,党的自我革命的实践创新及其理论概括为破解“大党独有难题”提供了基本答案。党的自我革命是党在政治清醒和理论自觉的基础上,通过自我要求、自我约束、自我反思,进行自我调整、自我扬弃、自我变革,实现党的自我修复、
新版国家标准GB/T 1355—2021《小麦粉》于2021年12月31日发布,2023年1月1日起实施,即将代替国家标准GB/T 1355—1986《小麦粉》。根据多年来面粉检测实践,比较分析新版标准指标的设置变化与检测方法的变化,指出某些指标在执行中可能会遇到的一些问题。从面粉加工企业角度谈新版《小麦粉》国家标准的合理性以及对面粉行业发展的重要意义,仅供参考。
由于固着生长的特性,自然界中的大部分植物必须应对环境中的各种不利因素。机械力作为如膨压、重力、触碰、风、雨、损伤、虫食、空间障碍等环境因子的重要组成部分,对植物的生长发育十分重要。相应地,植物进化出了感知和响应机制以应对不同的机械力刺激。目前认为机械压敏离子通道蛋白在植物对机械力的感知过程中发挥重要功能。近十年以来,有关动物中机械压敏离子通道Piezo的研究取得了一系列突破性进展。Piezo作为机
背景:幽门螺杆菌(Helicobacter pylori,H.pylori)是人体最常见的病原微生物之一,其感染可导致胃炎、消化性溃疡和胃癌等多种胃肠疾病。研究表明,临床上至少75%的胃癌与H.pylori感染密切相关。因此,H.pylori已被世界卫生组织列为I类致癌因子。幽门螺杆菌感染过程中可分泌多种毒力因子,如,脲酶(urease,Ure)、细胞毒素相关基因A(cytotoxin-assoc
世界卫生组织的数据表明,到2030年,抑郁症将成为最常见的精神疾病,将会给个人、家庭和社会带来严重的负担。然而,由于世界范围内医患比例严重失衡,很多患者可能无法得到及时的诊断。目前,对抑郁症的诊断主要以量表和问卷调查为主,但这些方法存在主观性大、隐藏性高、专家依赖性强、误诊率高等因素的影响。近年来的研究发现,抑郁状态影响患者的面部表情表达和言语声学表达。因此,面部表情和语音已成为抑郁症识别的核心行