基于距离相关的超高维复杂生存数据的特征筛选

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:jinjiajie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术(尤其是计算机计算和存储能力)的快速发展,超高维数据越来越多地出现在当今科学研究的各个领域,例如生物医学、经济学、脑图像科学等等.超高维数据的“维数诅咒”为其统计分析和推断带来了巨大的挑战,而特征筛选方法是克服这些挑战不可缺少的统计方法之一.近十余年来,超高维数据的特征筛选方法研究受到了众多统计学者的关注,并取得了众多重要的进展.然而,对于超高维复杂数据的特征筛选方法,相关研究并不是非常丰富,尚有许多问题亟需解决.基于距离相关,本文分别对具有先验信息的超高维生存数据和超高维半竞争风险数据的特征筛选问题进行了深入研究.第二章研究了基于条件距离相关的超高维生存数据的条件特征筛选问题.在研究实际问题时,在众多协变量中,研究者经常事先已知某个或某些协变量是重要的.那么,在构造特征筛选方法的时候就应该把这个信息考虑进来,从而达到改进筛选结果的目标.针对具有此类先验信息的超高维生存数据,本章提出了基于条件距离相关的特征筛选方法.为了使条件距离相关能够适应于带有右删失的生存数据,并使提出的方法对协变量具有稳健性,首先通过每个协变量的分布函数及生存事件时间的分布函数对每个协变量和生存事件时间进行了变换,其次考虑变换后变量的条件距离相关,使用该相关作为每个协变量和生存响应变量相关性的度量,最后利用该相关性进行特征筛选.通过变换的方法,巧妙地使用条件距离相关刻画了每个协变量和生存响应变量之间的相关性.在一定假设下,本章严格证明了所提方法的确定性筛选性质.数值模拟研究表明,本章提出的方法明显优于文献中现有的适用于超高维生存数据的条件特征筛选方法.本章还通过一个实际的数据分析说明了所提方法的有效性.第三章研究了基于距离相关的超高维半竞争风险数据的特征筛选问题.不同于标准生存数据,半竞争风险数据中的个体可能会经历两类相关的事件:非终止事件和终止事件.个体如果经历了终止事件,则不会再经历非终止事件,即非终止事件被终止事件右删失;反之不然.分别对非终止事件和终止事件进行特征筛选是不合适的.基于距离相关,本章提出并研究了一种超高维半竞争风险数据的联合特征筛选方法.类似于第二章的方法,首先通过每个协变量的分布函数及非终止事件和终止事件的联合分布函数对每个协变量和两个事件时间进行了变换,其次考虑变换后变量的距离相关,最后利用该相关性进行特征筛选.本章提出的方法既能挑选出分别对非终止事件和终止事件有重要影响的协变量,又能确定对非终止事件和终止事件都有重要影响的协变量.在相当弱的假设下,本章证明了所提出的联合特征筛选方法具有良好的理论性质.为了做到同时选择重要变量和确定变量个数,本章还给出了自适应地确定变量个数阈值的方法.本章通过大量的数值模拟验证了基于距离相关的联合特征筛选方法的有限样本性质,并把该方法用于实际数据分析中.第四章对本文进行了总结概括,并对进一步的研究进行了讨论.
其他文献
变压器作为电力系统重要的设备,广泛分布在电网的各角落,一旦发生损坏会影响供电的可靠性,造成巨大的经济损失。随着电力系统容量的日益增长,短路电流激增,为降低短路电流对变压器以及电网其他设备造成危害,越来越多的高阻抗变压器被运用于电网中。而现有的高阻抗变压器采用传统的高压绕组内置结构,存在成本高、合闸时励磁涌流过大、损耗高、绝缘处理难度大等问题,因此,研制一种经济、便于维护的高阻抗变压器具有重要的理论
当前我国高等教育事业快速发展,国家政府不断增加经费投入,高校财务活动日趋复杂,这对高校财务管理提出了更高的要求,而内部控制作为规范学校经济活动,提升学校治理水平的合理保证,同样也面临着新的考验和挑战。当下,高校的内部控制尚处于建设中,未像企业内部控制一样形成完整的控制体系及相应的法律法规,因此完善内部控制建设并付诸实施已经成为高校适应自身发展和外部环境的必然选择和迫切要求。经济活动管理作为高校管理
自十九大以来,我国政府面对农业耕种环境日益恶劣的情况,开始重视绿色农业的发展并相继出台针对绿色农业发展的支持政策,标志着我国绿色农业发展由政策宣传进入了具体的落地实施阶段。而采取绿色农业补贴正是促进绿色农业的关键推手,也是众多国家采取的有效手段。我国正处于生态文明建设的关键时期,要实现绿色农业的发展,亟需政府提出完善绿色农业补贴政策的实施体系以促进绿色农业的发展,但农户作为绿色农业发展的主要参与者
金属-有机骨架(Metal Organic Frameworks,MOFs)是由金属离子和有机配体自组装形成的新型无机-有机杂化多孔晶体材料,因其拥有可调节的多孔结构、多样的形貌、超大的比表面积、
目的:发热是内镜黏膜下剥离术的术后并发症之一,但目前术后发热的确切概率及危险因素尚不清楚。本研究旨在探讨胃部病变内镜黏膜下剥离术后发热的发生率及相关危险因素,以期通过优化术前风险评估、加强术中及术后管理来降低术后发热率。方法:回顾性分析我院2014年1月至2019年1月经内镜黏膜下剥离术治疗的胃部病变患者的临床资料。将纳入病例分为发热组与未发热组,统计分析包括年龄、性别、既往病史、病变部位、病变大
杂交兰(hybrid Cymbidium)是采用国兰与大花蕙兰杂交培育而成的兰花新品种,集大花蕙兰的花大、色艳、花期长和国兰的清香、典雅为一体,具有很高的观赏价值、经济价值和广阔的
在近岸波浪相关问题研究中,波浪的增水现象和低频波浪运动引起的共振现象,均对沿岸工程建设有着重要的影响,而辐射应力理论可以很好的解释波浪增减水和沿岸波生流的现象,同时
田园生态环境是农民赖以生存和发展的基本,它的破坏不仅会严重影响到农业生产发展的进程,而且会降低农村生存环境的质量。因此,田园生态补偿政策的研究与实施得到了很大程度上的重视。自20世纪80年代以来,许许多多的专家学者一直从事有关农业生态补偿方面的研究,他们在研究过程中不仅发现了生态补偿政策实施过程中存在的问题,同时也提出了相应的解决对策。作为农业生态系统的一个重要组成部分——田园,即田野,土地,是农
20世纪60年代线性互补问题被G.B.Dantzig和R.W.Cottle提出后便进入广大学者的视野中,在力学、金融、控制领域和数值代数中线性互补问题都有一定的应用。其中弱链对角占优B-矩
炼化特殊污水为海运原油加工企业在生产过程中产生的原油储运污水与钝化含油污水的合称,具有水质复杂、波动大、污染物负荷高以及可生化性差等特点,无法直接进入综合污水厂进