高维数据流形结构研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sunyulong378
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的快速发展,信息采集手段和技术逐步增强,人们在日常的生活中通过计算机网络和传感器设备方便地获取所需的数据和信息。人们获取的数据和信息通常具有高维属性,这些高维数据正在以指数的形式快速增长,越来越多的海量模糊数据和不确定性数据体现了高维小样本的特征,高维数据出现在我们生活的各个角落。如何有效的对高维数据进行表示和分类已成为机器学习领域的研究热点。针对高维数据分类及高维文本数据表示面临的一系列难题,本文基于流形学习理论,以高维数据分类与高维文本数据表示问题为研究背景,开展了高维数据流形结构研究,并将其应用于极限学习机、宽度学习系统与分布式文本表示方法中。本文的主要贡献如下:(1)针对现有极限学习机方法不能较好地保持数据样本的局部流形结构信息与全局几何结构信息等问题,本文提出一种全局局部保持极限学习机(Globality locality preserving extreme learning machine,GLELM)。GLELM 将线性判别分析与局部保持投影的基本原理引入到ELM中,不但可以保持样本内在局部几何结构,同时还可以保持样本的全局几何结构。另一方面,针对现有极限学习机方法忽视了数据样本的局部差异信息,本文提出一种判别全局局部极限学习机(Discriminative globality locality preserving extreme learning machine,DGLELM)。DGLELM运用判别局部保持投影的思想构建局部类内散度和局部类间散度,体现数据的局部流形结构和局部判别信息。然后,将局部类内散度和局部类间散度引入到ELM模型中。通过在图像数据集上的实验结果表明,上述提出的两种极限学习机改进方法能够显著提升极限学习机的分类性能。(2)针对宽度学习系统(Broad learning system,BLS)在高光谱图像分类任务中,由于标记样本有限导致宽度学习系统学习不充分的问题,本文从流形学习的角度对其进行解决,提出了判别流形宽度学习系统(Discriminative manifold broad learning system,DMBLS)。DMBLS构造类内图和类间图,类内图主要揭示同类数据样本间的相似度量关系,促进类内数据样本的聚集性。类间图使得不同类别的数据样本尽可能的远离。然后,使用类内图和类间图构造流形正则化框架。最后,将流形正则化框架引入到DMBLS模型中,通过最小化类内图和最大化类间图,优化BLS模型的网络权重,增强BLS模型的判别能力。实验结果表明DMBLS在多个高光谱图像数据集上取得了良好的分类性能。(3)针对现有分布式词表示方法低估了在欧氏空间中离得近的词,高估了离得远的词,本文将流形学习引入到分布式词表示Glove模型中,利用流形学习将高维特征空间中的样本分布群“平铺”至一个低维空间,同时保存原高维空间中样本点之间的局部位置相关信息,平铺之后将更有利于词向量之间的距离度量。与此同时,针对Sentence BERT主要在欧氏度量空间中对句子进行表示,尚未对句子表示的几何结构及其句子上下文的关系进行深入的研究,本文提出一种新的句子表示方法:Refined Sentence BERT。该方法旨在使用流形学习刻画句子向量的局部几何结构,发现句子向量之间的潜在流形结构,进而找出句子向量之间的内在关系,使得句子之间的语义信息和几何关系保持一致。实验结果表明,上述提出的方法能够得到高质量的词向量与句子向量。
其他文献
手性二氢嘧啶酮类化合物在药物化学中应用广泛,是一类重要的优势结构,其嘧啶环C4位的手性中心对该类化合物的生物活性和药效具有举足轻重的影响。目前,主要依赖不对称Biginelli多组分反应来合成此类手性化合物,但是,该反应受限于较窄的底物适用范围,只能构建C4位芳基取代的手性二氢嘧啶酮类化合物。因此,发展新的合成方法以实现手性二氢嘧啶酮类化合物多样性制备与新结构的创制,特别是目前研究中较少涉及的C4
全球变暖是人类社会面临的重要挑战之一,应对气候变化已经成为全球共识。二氧化碳捕集与封存(Carbon Capture and Storage,CCS)技术的大规模推广对于化石能源的清洁利用和温室气体的减排具有重要的战略意义。由于该技术具有环节多、范围广和周期长等特点,因此能否对碳捕集与封存网络进行精细化的全面规划以及增强抵御不确定因素的能力将不仅严重影响CCS项目的有关决策,而且还会影响我国的碳达
政府债务兼具财政与金融双重属性的特点,不仅使政府在处理债务问题中扮演主角,也让以银行为首的金融组织成为主要利益相关者。目前,我国地方债已经超过国债和政策性银行债,成为最大的债券品种。同时,银行类金融机构是地方政府债的主要认购群体。由于地方政府债存在债务发行与用途监管缺位、偿还担保不确实及市场流动性较差等问题,导致许多省份的地方债与财政收支的矛盾加重,而防范化解风险则列在当前三大攻坚战之首。如何更有
计算机断层成像(CT)是一种通过测量不同方向上透射被检测物体的投影数据来获得物体横断截面(断层)信息的先进成像技术,广泛应用于医疗诊断与工业检测等领域。传统的解析重建算法需要完备的投影数据,才能取得理想的断层重建效果,而在实际应用中受被检测物体与扫描环境的限制,采样条件通常不够理想,只能在稀疏角度或有限角度范围内采集,导致投影数据不完备。另外,当遇到厚薄不均的异形工件断层重建时,受限于探测器的动态
边坡的稳定分析和安全性评价对防治岩土灾害,保障人民生命和财产安全有着重要的意义。实际中的边坡破坏存在着空间效应,二维边坡稳定分析不能够反映出这种破坏特性,因此需要采用三维方法对边坡稳定性进行分析。同时三维方法还能够解决二维断面难以选取,二维反分析会过高估计材料强度参数等问题。本文为解决三维边坡稳定性问题,在二维有限元极限平衡法的理论基础上,建立了三维有限元极限平衡法。基于三维极限平衡状态,定义了局
回复性是动力系统中的核心内容之一,在概率论中称为常返性,它描述了动力系统和Markov过程的渐近行为和复杂性.根据Poincaré回复定理和Birkhoff回复定理,回复性广泛存在于动力系统中.另一方面(正的)常返性本质上等价于Markov过程不变(概率)测度的存在性,众所周知不变测度的存在性在Markov过程理论中起着重要作用.本学位论文致力于研究以下两个问题.1.Lévy噪声扰动的随机微分方程
不能直接产生热效应的可见光能量约占太阳辐射能的40%.这部分能量难以被相变材料直接有效利用。因而,开发定形光热转换相变储能材料实现对太阳能可见光的光吸收-光热转换-热能存储三个过程合而为一,是实现太阳能高效利用的重要策略。然而,直接添加的光热转换材料与相变材料复合的方法,由于材料相容性较差,使材料的光热转换存储性能稳定性不足。针对这一关键科学问题,通过采用硅烷偶联剂对二氧化硅(SiO2)进行改性,
多硝基酚类化合物被广泛应用于石油化工、农业、印染、医药等行业,在生产及应用过程中会进入环境生态系统。多硝基酚有机污染物具有致癌、致畸、致突变的“三致”作用、生物累积性、抗化学/生物降解性等特点,对人体和生态环境存在潜在危害。因此,探索易行、高效的多硝基酚污染物的处理方法具有重要的科学意义和应用价值。目前对于多硝基酚类化合物的各种处理方法中,基于硫酸根自由基(SO4·-)的高级氧化技术(SR-AOP
当前,脆弱模型和边际模型是分析聚类生存数据最常用的模型,其中,脆弱模型通过在传统生存分析模型中引入随机效应项来描述个体间的非独立性,它不但可以提高协变量效应估计的精度,而且可以给出随机效应变异性大小的估计.传统的生存分析模型在实际应用中往往假定协变量效应为常数,然而在很多实际问题中,某些协变量的效应并非固定不变的,而是随着协变量的取值不同而变化,甚至依赖于其它协变量或者生存时间.非参数生存分析模型
“变革性研究”是彻底改变人们对现有科学的认知,创造新范式、新领域、引领新前沿的研究。21世纪以来,欧美主要发达国家大力加强对变革性研究的探索与支持力度,以继续保持在全球范围内的科技领先优势和国际竞争力。近年来,我国也提高了对变革性研究的重视程度,“切实加大对非共识、变革性创新研究的支持力度,鼓励质疑传统、挑战权威,重视可能重塑重要科学或工程概念、催生新范式或新学科新领域的研究”。在此背景下,尽早发