基于极端梯度提升的生存分析优化模型及应用

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:yywachself
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症作为一种威胁人类生命和健康的重大疾病之一,其发病率和死亡率呈现逐年上升的趋势。对癌症患者的生存期进行精准的预测能够帮助医生制定有效的个性化诊疗方案,也可以帮助患者更好的了解自身情况。随着高通量技术的发展,基因组数据被证实了在癌症发生发展过程中发挥了至关重要的作用,使用基因表达数据对癌症患者的生存期进行预测能够帮助医生做出更好的治疗方案并给出临床解释。现如今,生存预测模型已被广泛应用于研究患者协变量(如基因组特征和临床特征)与生存之间的关系,使用基因组数据来对患者生存期进行预测也成为了当下的热点话题。然而,基因组数据往往是高维的,这一特性极大的限制了现有生存预测模型的稳定性和准确性,因此,本文提出了一种基于极端梯度提升的改进生存分析算法,旨在解决现有方法难以处理高维基因数据的问题,并在真实的癌症数据集上进行了实验验证。本文的主要工作如下:(1)提出XGBLC算法。基于极端梯度提升框架,使用带有1L惩罚项的Cox比例风险回归作为损失函数,实现在高维数据上更强的适应性。通过计算损失函数的一阶导数和二阶导数,重新定义了极端梯度提升框架中的损失函数,并改进了构建生存树的结构。(2)构建XGBLC生存预测模型。针对癌症患者的基因表达数据,利用提出的XGBLC算法构建生存预测模型,在真实的癌症数据集上对XGBLC算法进行测试,使用内部五折交叉验证和网格搜索选择最优参数集合,并通过外部五折交叉验证的方式对模型的性能进行了评估。(3)数据收集与预处理。本文所使用的数据全部下载自TCGA数据库,共涉及了20种癌症类型7416名患者的基因表达数据及对应的临床信息。为提高数据质量,我们将下载得到的数据进行预处理,包括数据标准化,去除含有噪声、缺失值、异常值的数据等。(4)将XGBLC模型与其他五种现有模型进行比较。在20套数据集上对六种模型进行了比较分析,使用C-index为主要评估指标,并通过模型的运行时间比较了六种模型的计算复杂度。经验证,XGBLC模型在20个癌症数据集中的19个数据集上都获得了更好的预测性能,平均C-index提升了7.89%,平均时间相关AUC提升了8.21%,同时,六种模型的平均运行时间相近。结果表明,在处理高维基因数据时,XGBLC获得了比其他现有方法更好的预测结果,是一个可靠、准确的生存分析算法。
其他文献
目标跟踪是计算机视觉领域中的研究热点,被广泛应用于我们的生活中。目前基于深度学习的目标跟踪方法取得了巨大的成功,然而在跟踪过程中存在诸如背景杂斑、低分辨率、尺度变化、目标形变等干扰因素,使得在目标跟踪上的研究依然存在许多挑战。为了解决上述问题,本文以孪生神经网络模型为理论基础,结合在实际跟踪环境下的挑战,提出了两种具有创新性的高性能跟踪算法,具体的研究内容以及成果概括如下:(1)提出一种基于注意力
学位
在常规自适应算法中引入泄露因子的Leaky LMS算法能够有效的减轻权值漂移,减小算法达到稳态的均方误差,Leaky LMS算法一般应用在高斯环境中。Leaky LMP被推广应用在非高斯噪声环境中。本文在已有研究的基础上,对Leaky LMP算法进行扩展,研究Leaky自适应滤波器的LMS与LMP混合算法的瞬态、稳态和跟踪性能。在未知训练序列情况下应用CMA算法的盲均衡器能够精准的补偿信道特性,完
学位
伴随着互联网的飞速发展,如何表示与规划互联网中的知识成为了当下研究的焦点,这使得知识图谱应运而生。但是,目前的知识图谱仍旧处于发展阶段,尚未达到完善的程度。虽然知识图谱中含有大量的知识,但对于一些冷门的或者不常用的知识,其覆盖率依旧不足。目前的知识图谱中的知识均使用RDF三元组——即<头实体,关系,尾实体>——的形式表示,无法使用这个形式表示的知识就无法加入知识图谱中,这使得知识图谱的刚性非常大,
学位
随着云计算、大数据的迅速发展,应用系统提供的服务不断多样化,复杂软硬件系统运行状态的监控指标数据呈现出形态多样、随机性强、复杂相关性等特点,对异常检测方法也提出了更高的要求。当前对于监控指标的异常检测方法大多是针对单一指标或某一实体进行监控,并采用固定异常阈值的方法检测异常。由于故障传播等指标数据的特性,大部分方法不能有效的检测应用系统在运行中出现的异常,且不能对异常告警原因进行解释。针对上述问题
学位
手语利用手部形态的变化、手势的变化以及手部的空间位置变化来对语义或音节进行模拟,从而表示一定含义,是一门动作视觉语言。手语除了可以作为正常语言交流的辅助手段,更是听力方面有障碍或者聋哑人群进行交流表达的重要方式和主要工具,对于使用手语的需求与日俱增,然而手语的教学专业性强,普及程度较差。针对手语识别的研究,可以极大地保障听力障碍及聋哑人群的日常生活、学习、工作等权利,有着积极的社会意义。同时针对手
学位
随着各大商港集装箱的吞吐量和大型集装箱码头的承载能力迅速提升,商港危险品货物的错误申报、瞒报谎报等现象日益凸显,持续爆出的危险品安全和信息来源问题令公众焦虑不已。危险品信息来源不仅关系到人身安全、财产安全,还牵涉到社会的稳定、信任和监管运营问题。针对上述问题,本文设计了一个基于联盟链的商港危险品可信溯源方案,对方案中涉及到的联盟链关键技术和问题进行了较为深入的研究,为商港危险品可信溯源提供理论依据
学位
图像配准作为图像处理领域的关键技术,在遥感图像技术等领域具有广泛应用。但是,当不同设备获取的图像由于地物位置、成像时间、拍摄角度等差异时,会产生如旋转、缩放、扭曲等非刚性变化。当局部存在剧烈非刚性变化时,就形成了局部畸变图像。复杂的非刚性变化会导致畸变区域检测的特征点少、匹配数量少、误匹配率高,从而增大图像配准的难度。因此,本文提出ORB-DTM匹配算法。利用改进的基于四叉树的ORB(Orient
学位
近年来,半导体光催化剂被广泛应用在环境治理方面,二氧化锡(SnO2)半导体作为一种环境友好型光催化材料,可以有效降解空气和水中的有机物,将其转化成CO2和H2O等无害物质。但由于较宽的带隙(Eg)导致吸收太阳光的能力受限,无法大面积推广应用,因此需要通过改性研究将SnO2对光的吸收拓展到可见-近红外(visible and near-infrared,Vis-NIR)光区域,并提高Vis-NIR光
学位
将2D形状分解为多个更简单的部分或零件是形状分析任务中的一个基本步骤,比如形状几何处理或者形状分类识别等任务。其原理是在简单的部分上进行计算或处理通常比直接在整个形状上操作效率更高,尤其是在形状本身较为复杂、细节较多的时候。不过,尽管已经存在大量认知学方面的研究,对于部分或者零件的定义目前仍然停留在语义上,并没有严格规范,这使得有意义的形状分解至今还是颇具挑战。2D形状分解研究中常用的三种认知规则
学位
RFID技术作为物联网的核心技术之一,由于其快速扫描,无接触式识别等优点被广泛应用,尤其是在物流管理、仓储管理和供应链管理等领域。通过使用RFID技术可以检测到仓库内的商品信息及库存情况,提高了人工管理仓库的工作效率。但是由于人工的疏忽与纰漏,会导致部分商品发生丢失,此时需要快速检测到丢失商品,以减少商家的经济损失,所以就需要使用丢失标签检测协议来检测出丢失的商品。当前大部分的丢失标签检测协议是针
学位