整合稀疏偏最小二乘方法及其应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:guangzhilin123546
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
偏最小二乘法(Partial Least Squares,简记为PLS)作为一种降维方法,随着大数据的发展得到了越来越广泛的应用。在高维问题中,噪声变量的存在会削弱模型的性能,由此发展出可以筛选重要变量的稀疏偏最小二乘方法(Sparse Partial Least Squares,简记为SPLS),来产生更具解释性的稀疏的估计结果。由于样本量过少的限制,单个数据集下的SPLS分析结果通常会有稳定性和复现性较差等缺点。一个有效的解决方案是利用多个具有相似实验设计的独立数据集之间的信息来提升估计效果。在多数据集分析方法中,整合分析方法可同时分析多个原始数据集,能够有效的利用数据集之间的相似信息,得到更稳定精确的分析结果。本文将基于稀疏偏最小二乘方法,将整合分析的思想应用到降维方法中,提出整合稀疏偏最小二乘方法(Integrative Sparse Partial Least Squares,简称iSPLS)。并利用惩罚函数的方法,同时实现多数据集的变量选择和参数估计。该方法中主要包含两类惩罚项:第一类复合惩罚项实现整合分析下的变量选择;第二类构造惩罚项用于鼓励数据集之间的相似性,进一步挖掘数据集之间的相似信息,改善估计结果。针对本文所提方法设计了有效的算法,并建立了估计量的渐进一致性理论性质。通过大量的模拟实验,将所提方法和其他多数据集分析方法进行对比,模拟结果证明了所提方法在多数据集分析中具有明显优势。最后,利用两个TCGA癌症基因数据集的分析,验证了所提方法在实际应用中的有效性。
其他文献
随着我国经济的发展和城市化的推进,许多城市相继出现严重的空气污染现象。臭氧作为光化污染的重要指示污染物,研究臭氧及其前体物的变化规律,对了解城市大气中光化学烟雾的
近年来,计算机网络发展迅速,网络环境复杂多变,APT攻击事件频发,现有网络攻击模型无法满足对APT攻击及防御策略的分析需求,需要研究和探索新的模型。基于此,本文就APT攻击事件展开如下模型研究:(1)基于层次分析法的APT攻击模型APT攻击模型是分析APT攻击行为的重要手段。现有的关于网络攻击的建模方式大多采取攻击语言、攻击树、攻击图等建模方式,模式单一且并不完全适用于APT攻击。基于此,提出AP
目的人体循环中的非血小板核糖核酸粒子(Non-platelet RNA particles,NPRPs)能够参与组织再生、修复损伤等过程,具有与间充质干细胞(Mesenchymal stem cell,MSCs)及细胞外囊泡(Extracellular vesicles,EVs)相似的修复再生特性。NPRPs或与MSCs联合应用有望提高MSCs细胞替代治疗的疗效。本实验旨在通过将人体外周血中的NP
数据量的迅猛增长给有限存储空间带来了巨大挑战。重复数据删除技术能够有效地识别和删除重复的数据块,大大地降低了存储数据所需空间和传输数据所需带宽,因此被广泛地应用在备份和归档系统中。然而,去重备份系统中磁盘索引的查找和数据碎片化分别损害了数据备份和数据恢复的性能。容器作为保留备份流局部性的基本单元,与数据备份和数据恢复的过程有着密切的关系。本文基于容器的基本特征,分别提出两种优化去重备份系统性能的方
郓城井田位于山东省郓城县,隶属于山东龙郓煤业有限公司。目前主采二叠系山西组煤层3煤,其充水含水层主要为顶板山西组及石盒子组砂岩含水层。课题以郓城井田一采区为研究对象,根据郓城井田的地质资料、水文地质资料、钻探资料、物探资料、涌水资料等,在研究煤层顶板岩层结构特征的基础上,详细划分煤层顶板的含、隔水层,并基于多属性融合理论,对顶板砂岩含水层富水性及顶板突水危险性进行了研究。借助于FLAC3D数值模拟
液压挖掘机在各类工程领域中应用广泛,尤其在土方挖掘等工程建设施工中具有不可替代的作用,是最重要的工程机械之一。然而传统挖掘机主要以柴油机作为动力源,不仅在负载剧烈变化时效率低下,而且在工作中会不可避免地产生排放带来污染问题。由于全球气候问题造成的排放政策收紧,社会对工程机械节能环保的要求越来越高,以电机作为主动源的纯电驱液压挖掘机因其高效率与零排放的特点逐渐成为研究的热点。现有的纯电驱液压挖掘机在
棉花是优良的天然纤维来源,在国民经济体系中一直占有极其重要的地位。转基因技术作为棉花常规育种的重要补充,在提高棉花产量、改良纤维品质及增强棉花抗逆性等方面都取得了突破性进展,但转基因技术带来的生物安全问题在国内外也引起了极大的关注。本研究基于通过农杆菌介导法获得的几个抗旱相关基因的转基因棉花材料,根据《农业转基因生物安全评价管理办法》的相关要求,对其进行分子鉴定、遗传稳定性分析及抗旱性功能验证,具
目的:了解湘西州农村儿童营养状况,探讨农村儿童营养状况的相关影响因素,为有针对性地改善农村儿童营养状况提供参考。方法:采用分层整群随机抽样的方法,从湘西州农村学校中抽取6-17-岁儿童进行身高和体重测量。本次调查有效样本共1433人。在参加身高、体重测量中随机抽取三年级以上的儿童进行问卷调查。运用卡方检验和Logistic回归分析农村儿童营养状况和影响因素及其相关性。结果:(1)湘西州农村儿童营养
开花在植物的生长发育过程中具有重要意义,适时开花是作物高产稳产的保证和前提。在拟南芥中,FRIGIDA(FRI)和FLOWERING LOCUS C(FLC)是决定开花时间变异的两个重要基因,也是决定生态型分化的关键基因。FRI通过激活FLC的转录,抑制下游“成花素”基因FLOWERING LOCUS T(FT)的表达,延迟开花。甘蓝型油菜具有冬性、半冬性、春性三种生态类型。甘蓝型油菜基因组中存在
镁合金具有密度小、比强度高和铸造性好等诸多优点,但由于其耐磨耐蚀性差,一般需对其进行表面处理以延长有关工件的使用寿命。等离子体电解氧化(Plasma Electrolytic Oxidation,PEO)是一种新型表面处理技术,可在Mg、Al、Ti等阀金属表面制备氧化膜,常被用来改善金属的耐磨、耐蚀性以及生物性能。在电解液中加入Na2W04能制备含W的PEO膜层,此类膜层在光催化、半导体等众多领域