【摘 要】
:
背景和目的:精确的预测癌症患者的生存期具有重要意义,一方面有助于疾病的全周期管理,另一方面帮助患者及其家属建立正确期许。用于预测肿瘤患者生存期的特征总体可分为临床特征和分子特征。临床特征包括临床分期、病理类型、初诊年龄等;分子特征包括基因突变、基因表达特征等。研究发现,临床特征在预测肿瘤患者生存期方面具有一定的局限性。因此,本研究决定以分子特征寻找宫颈癌生存期预测为突破口,希望找到能预测宫颈癌生存
论文部分内容阅读
背景和目的:精确的预测癌症患者的生存期具有重要意义,一方面有助于疾病的全周期管理,另一方面帮助患者及其家属建立正确期许。用于预测肿瘤患者生存期的特征总体可分为临床特征和分子特征。临床特征包括临床分期、病理类型、初诊年龄等;分子特征包括基因突变、基因表达特征等。研究发现,临床特征在预测肿瘤患者生存期方面具有一定的局限性。因此,本研究决定以分子特征寻找宫颈癌生存期预测为突破口,希望找到能预测宫颈癌生存期的分子机制。近年来,快速发展的癌症大数据和机器学习技术为癌症患者生存期预测模型提供了数据基础和技术基础。癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库是目前公认的先进的癌症研究数据库,支持向量机(Support Vector Machine,SVM)算法是机器学习领域常用的分类算法。小分子核糖核酸(micro RNA,miRNA)具有调控能力强、相对简单、检测成本低、易转化的特点。因此,本研究尝试使用miRNA作为分子特征,进而构建宫颈癌患者生存期预测模型,研究结果将对宫颈癌的疾病管理和基础研究提供新思路。方法:课题从TCGA数据库下载宫颈癌患者的临床特征数据和miRNA表达数据。临床特征与宫颈癌患者生存期的相关性通过Chi-square方法和Kaplan-meier方法研究;miRNA表达数据预处理步骤包括:脏数据剔除、缺失值初替代、样本标准化、缺失值再次替代、Log2转换、特征均一化。两次缺失值替代都采用K近邻(K nearest neighbors,KNN)方法,样本标准化采用Quantile normalization方法,特征均一化采用Z-Score方法。与生存相关差异表达miRNA特征的筛选与鉴定采用Cox比例风险回归(Cox Proportional Hazards,Cox PH)和Kaplan-meier方法。K-means算法用于将宫颈癌患者根据与生存相关差异表达miRNA特征聚类。SVM算法用于宫颈癌预后预测模型的建立。接受者操作特性曲线(Area under an ROC curve,AUC)和混淆矩阵用于宫颈癌预后预测分类模型准确性的评估。结果:通过Chi-square方法分析发现临床指标与宫颈癌预后生存的相关性比较弱,Kaplan-meier方法验证发现临床分期与宫颈癌预后生存具有一定的相关性,但其分辨能力较弱。数据预处理环节达到了填补缺失值、样本标准化和参数均一化的效果。本研究使用Cox PH方法筛选42个与宫颈癌生存相关差异表达的miRNA,经Kaplan-meier方法验证,其筛选结果具有可靠性。通过K-means聚类研究发现,利用Cox PH方法筛选出的42个与生存相关差异表达miRNA,根据所得Log rank p值由小到大的顺序排序,采用前10个与生存相关差异表达的miRNA特征,可将宫颈癌患者成功分为3类,其5年生存率分别为:≥85%,≈65%和≤35%。根据上述结果,再利用SVM算法,成功构建了宫颈癌患者5年生存率预后预测模型,利用该模型预测测试集数据,并通过预测结果,求出其相应的混淆矩阵、误判率和AUC值,由此得出本研究所构建的模型具有较高的预测准确性,其准确率高达93.75%。结论:研究建立了基于miRNA特征的宫颈癌预后预测机器学习模型,可将宫颈癌患者以5年生存率≥85%、≈65%或≤35%加以区分,模型具有高的预测准确性。研究结果将为宫颈癌的疾病管理和基础研究提供新的思路。
其他文献
在极端环境条件下,电网装备、飞机、高铁等大型设备器材的机电性能会显著降低,严重影响其安全稳定性。国内外目前还没有低成本实现极低温复杂环境与高速运动相结合的综合条件下电工电子产品、飞行器、高铁、风机等装备材料、器件和缩比模型的检测与试验的仪器装备系统。而要在实验室模拟极寒、极低气压、雾霾和沙尘等各种恶劣环境,并进行机电特性研究,必须使检测装置放置于密闭空间内,若仍采用传统风洞进行设计和建造将耗费极高
随着我国保险行业的高速发展以及公众健康意识的不断增强,商业健康保险得到了快速的发展,各家保险公司在商业健康保险领域的竞争也越来越激烈。在保险市场产品严重同质化的情况下,传统健康保险的比产品、比费用时代已经结束,竞争的焦点已悄然转变为创新的科技应用、管理能力和服务能力。近年来,以数据为核心的互联网、大数据、人工智能、人脸识别、云计算、区块链等信息技术逐渐应用到各个行业和领域,保险行业在产品定价、精准
在白酒行业的“黄金十年”时期,W公司顺应了改革开放下消费时代开启的趋势,通过卓越的产品品质,赢得了市场的认可,实现了跨越式的发展,品牌价值获得极大提升,跻身于行业标杆的地位。不过,过快的规模扩张、粗放的管理模式和战略定位的不明晰也为后续的发展埋下了隐患。在宏观经济增速放缓、行业结构整体失衡和行政法规约束的多重作用下,品牌繁杂、管理混乱、口碑涣散等问题开始集中爆发,公司品牌价值被稀释,市场竞争力变弱
随着中国城镇化进程进入高速增长期,高密度的建成环境逐渐占据本不富裕的绿地空间,如何处理人地矛盾与构建生态美丽宜居城市成为热点话题,这时衍生出了提倡建设“人城境业”高度融合的大美城市形态的新时代“公园城市”新理念,即有机融合公园形态与城市环境,完善绿地空间“一公三生”的布局,促进自然文化与社会经济的可持续协调发展。同时,城市公园作为推动人与自然互动发展的公共空间类型,随着人民日益增长的需求与城市功能
随着《“健康中国2030”规划纲要》的实施,商业健康保险进入新发展阶段,疾病、医疗保险产品种类繁多,健康保险保费收入持续增长,但与我国14亿人口基数相比,目前的商业健康保障覆盖面不高,需求端存在着许多制约因素。国内外学者已从人口结构等层面分析商业健康保险的需求影响因素,然而传统经济学的理性人假设具有局限性,无法完全解释健康保险市场的需求异象,因此国内外学者逐渐采用行为经济学的理论,将经济学与心理学
自20世纪60年代以来,在投资者—东道国争端解决中,国际投资仲裁逐渐成为主要的争端解决机制,但是国际投资仲裁程序冗长耗资巨大,对国际投资双方当事人来讲都是沉重的负担,并且,仲裁程序的“对抗性”使得国际投资当事人针锋相对,不利于维护当事人之间友好经济合作关系,尤其随着我国“一带一路”倡议的提出,对完善投资者—东道国争端的解决机制提出了新的需求。在ISDS机制改革背景下,以调解解决投资争端的呼声高涨,
近年来,金融机构广泛使用有监督学习方法建立信贷风险预测模型。然而,在新开信贷业务中,带有结果标签的数据通常较为稀缺,导致有监督建模缺乏有效的训练数据。本文设计了一种新的迁移学习方法,来缓解跨地区新开信贷业务的训练数据稀缺问题,进而建立有效的信贷风险预测模型。本文改进了半监督模型Tri-training,然后将其融入迁移学习,创新性的提出了Trans TRIT迁移模型。Trans TRIT引入了置信
“猪周期”是指生猪价格周期性变化的经济现象,是业内公认的生猪和猪肉价格呈现出明显的波峰与波谷交替的周期性变化现象。近年来中国生猪市场价格一直呈现典型的“暴涨暴跌”周期性波动特征,影响人民的生活水平,而且也使畜牧养殖企业面临强烈的利润波动,严重时甚至导致企业陷入财务危机。目前鲜有文献将猪周期与企业财务危机联系起来,探究畜牧业企业面临的猪周期对微观企业主体财务状况和经营绩效的影响。本文基于企业风险角度
在山地城市的规划设计及建设中,由于受到地面空间的限制,逐渐出现了多种形式的一端封堵隧道。一旦发生火灾,一端封堵隧道烟气更容易聚集,不易排出。现有规范尚无一端封堵隧道通风排烟的明确规定。因此,一端封堵隧道在工程设计、施工、验收和运行中缺少参考依据。由于自然通风排烟方式具有简单高效的优点,近年来逐渐应用于隧道工程中。现有的隧道自然通风排烟主要有利用出入口、顶部开口和竖井三种方式。论文采用小尺寸模型实验
地表形变可能引发地裂缝、海水倒灌、山体崩滑等一系列严重灾害,对人类生命财产和经济活动构成潜在危害。监测地表形变有利于人们研究各类地质灾害的时空分布和形成机理。近年来,多时相合成孔径雷达差分干涉测量技术在地表形变监测领域表现出巨大的应用潜力和不可替代性。但是,该技术的性能容易受到失相关噪声的影响,导致地表形变现象难以被全面地解译。为了减小失相关噪声的影响,相位重构技术应运而生。现有的相位重构方法主要