基于基因表达谱数据的肿瘤标志物识别与分析

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:liongliong434
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
恶性肿瘤,也称为癌症,是一种与基因突变有关的复杂疾病,普遍存在人体的各个组织中,一直以来都是全世界范围内的公共问题。科学家和临床医生长期以来积极地与癌症及其伴随疾病做斗争,但各国的癌症发病率仍逐年升高。随着医疗技术水平的不断进步,各种抗肿瘤药物相继研发,癌症患者的生存时间和状况得到了很大的改善。但晚期癌症至今仍无治有效的治愈方法,只能通过相关技术手段延长患者的生命。相比于癌症晚期患者,癌症早期患者的生存时间更长,预后更好,存活率更高。因此,癌症的早发现,早治疗成为癌症诊疗过程中最重要的一环。早期检查最有效的方式之一是从血液、尿液和唾液等人体组织中识别肿瘤标志物,并进行相关检测。这种检测简单,高效,且具有非侵入性,一般可以通过定期体检等方式进行。研究发现,肿瘤的发生和成长过程伴随着基因的突变以及细胞内各种物质的改变。随着微阵列芯片技术和高通量测序技术的发展,基于基因表达谱的肿瘤标志物给癌症的早期诊疗带来了曙光。相比于传统的肿瘤标志物,基于基因表达谱的肿瘤标志物有着更高的预测准确率。研究人员通过研究海量的基因表达谱,并结合最前沿的机器学习和人工智能技术识别了各种癌症的标志物。然而,很大一部分肿瘤标志物在表达谱数据的预处理过程和标志物的识别过程中忽视了一些问题:首先,与传统人体组织数据不同,基因表达谱数据通常包含两万多个基因特征,如果所有的基因特征都参与肿瘤标志物预测模型的构建,无用特征和冗余特征将会很大程度影响算法的运行效率和模型的预测准确率,如何有效地进行特征选择成为了研究者面临的一个难题。其次,基因表达谱数据的批次效应和平台差异会对模型预测结果的鲁棒性产生影响,使得某些肿瘤标志物只在特定数据集表现良好,而在跨平台数据集表现效果差。最后,样本的不平衡性也是医学数据中的常见问题,不平衡数据会给模型的预测结果带来偏倚性问题,导致模型的预测准确性下降。针对以上问题,本文做了如下工作:(1)针对肿瘤标志物识别过程中不平衡数据集分类精度低等问题,从数据集预处理方面,提出一种新的不平衡数据处理方法:WSMOTH(Weight-based Synthetic Minority Over-sampling Technique)算法。该算法的思想是根据卡方值的计算规则来为每个特征分配权重,并通过特征的权重来约束少数类样本的合成方向,最后根据多数类样本和少数类样本的数量关系迭代产生新样本直到正负样本平衡。在算法验证过程,本文选择了不同平衡度和数量级的八个数据集,分别从五个不同维度验证了算法的鲁棒性和稳定性,并与未经预处理的随机森林算法,经传统SMOTH预处理的随机森林算法和经SCSMOTH预处理的随机森林算法进行对比。结果表明,本文提出的WSMOTH算法的总体性能要优于其它算法,能有效提升随机森林算法对不平衡样本的分类准确性。(2)针对基因表达谱数据的批次效应和跨平台性对肿瘤标志物鲁棒性的影响,以及高维数据的特征选择问题,本文从不同角度识别了两个与局部进展期直肠癌(locally advanced rectal cancer,LARC)患者预后相关的肿瘤标志物。在第一个角度,本文对随机森林算法的特征重要性度量方法进行了改进,并基于样本内相互关系秩序对识别了一个能够预测LARC患者的病理反应状态的肿瘤标志物。该标志物超过六成的基因与蛋白质合成相关。受试者工作特性曲线分析显示,该标志物在预测患者的病理反应和长期生存预后方面表现良好,对跨平台数据的预测具有鲁棒性。此外,该标志物不与分期、性别、年龄等因素重叠,其预测结果也与细胞系的放化疗抗性相互关联。在第二个角度,本文从免疫微环境、免疫治疗与患者预后的关系出发,使用肿瘤表达谱中的免疫相关基因构成秩序对,识别了LARC患者的免疫评分标志物。该标志物由18个免疫相关基因秩序对组成,并通过基因秩序逻辑关系给患者打分。结果表明该标志物在预测患者的病理反应和长期生存预后方面仍然可以很好的抵抗基因表达谱的批次效应,且与患者的免疫微环境相关,为患者的相关免疫学分析提供了参考。
其他文献
开关磁阻电机(Switched Reluctance Motor,SRM)因调速范围宽、驱动效率高、生产成本低等优点,在电动汽车、家用电器和工业生产中得到了广泛的研究与应用。但是由于本身固有的双凸极结构和非线性的电磁特性,使得SRM在运行过程中存在噪声与转矩脉动大、电流峰值高等缺点,严重制约了SRM的推广。针对上述问题,本文以一台三相6/20结构开关磁阻电机为研究对象,提出一种根据电机转速自适应改
学位
随着LIGO/Virgo灵敏度的不断提高,越来越多的引力波事件被探测到。匹配滤波法是引力波探测的重要数据处理方法,但其需要大量匹配模板、计算效率低无法实现实时探测,因此找到一种能够快速、实时分析引力波信号的方法是目前的当务之急。随着深度学习技术在图像处理、医疗诊断、无人驾驶等领域的应用。天文学领域的专家们也尝试将深度学习技术应用到引力波信号处理中。与匹配滤波方法相比,深度学习的计算效率大大提高,有
学位
随着云服务、大数据、物联网、无人驾驶等新型数据业务进入人们的生活,互联网数据流量正经历着爆炸式增长。然而互联网的基石——光纤通信系统与网络的传输容量在历经了多次技术革新与突破后,已增长乏力,正在逼近理论上的非线性香农极限。轨道角动量(Orbital angular momentum,OAM)是电磁波(光波)除振幅、相位、频率、偏振(自旋角动量)、时间之外仅剩还未开发的维度资源,受到了广泛的关注。基
学位
<正>城市更新项目投融资模式设计,需要结合具体地方的综合财力、资源禀赋,以及具体项目的经营属性、商业模式、回报机制、潜在风险等综合考量,从投资主体、融资模式、平衡机制等多维度统筹谋划城市更新项目一般投资额较大,在实施过程中,将不可避免遇到资金从何而来的问题。要解决资金问题,就要解决投融资模式问题。住建部在《关于印发实施城市更新行动可复制经验做法清单(第一批)的通知》中,也专门就“构建多元化资金保障
期刊
肺炎是导致儿童死亡的严重疾病之一,且当前新型冠状病毒肺炎在全世界广泛流行,因此对肺炎的快速检测研究具有重要意义。肺炎检测不仅要求具有较高的检测精度,还需要有较好的实时性。由于医学图像中肺炎的特征不够明显,放射科医生在诊断胸部X光片中是否存在肺炎需要花费大量的时间。长时间观看胸部X光片,医生的视觉容易产生疲劳,有可能对胸部X光片中的肺炎产生漏诊和误诊的情况。随着人工智能的发展,利用深度学习的方法实现
学位
受制于成像设备的材质及大小,当拍摄场景下的动态范围超出成像设备所能捕获的范围时,无论选择何种曝光模式,高亮区域信息或低暗区域信息在一定程度上会丢失,造成非正常曝光问题,导致图像初始细节信息损失,非正常曝光现象已成为制约图像质量的一个重要原因。图像增强技术旨在平衡非正常曝光图像的整体亮度,恢复局部区域中丢失的信息,突出图像全局纹理细节信息,来达到改善图像质量的目的。虽然已有许多学者将曝光补偿技术集成
学位
激光干涉引力波天文台(LIGO)在2015年探测首次发现黑洞并合发出的引力波信号,开创了引力波天文学时代。引力波及其电磁对应体的发现对人类对于宇宙的观察和理解而言有着紧要的意义。引力波暴高能电磁对应体全天监测器GECAM卫星旨在完成对引力波事件的高能电磁对应体的全时段监视观测,并监测全天的高速射电暴的高能辐射、特殊伽马暴以及磁星暴发等高能天体暴发事例,为有关的物理研讨提供能谱、光变及定位等观测数据
学位
圆极化天线可以抑制多径干扰并减少极化失配,在各种无线系统中已经有广泛的应用。而宽波束圆极化天线具有更大的角度覆盖范围,可以增强使用这种天线的通信系统的可靠性。此外,多频天线可以用于全双工通信以降低网络延迟,同时还能降低同一个通信系统内天线之间的干扰。本文基于基片集成波导结构,对这两种天线进行了研究与分析,主要工作概括如下:1、基于基片集成波导结构设计了一个宽波束圆极化天线。首先,本文先分析了实现宽
学位
双伸缩立柱是矿用液压支架的重要组成部分,详细阐述了煤矿用液压支架双伸缩立柱维修的拆装工具。在双伸缩立柱的拆解和装配作业中利用创新设计的液压固定式双伸缩立柱拆装机取代了传统的机械固定式拆装机,优化了作业工艺,减少了操作工序,降低了工人劳动强度,提升了工作效率。实际应用结果表明,液压固定式系统稳定,生产中操作流畅,创新设计的拆装机同时满足质量和安全要求。
期刊
心血管疾病的患病率和死亡率仍处于上升阶段,这不仅严重威胁着世界各国人民的健康,也极大加重了家庭和社会的经济负担。心音信号能准确地反映心脏及周边血管的生理以及病理信息,是心血管疾病临床诊断的重要依据之一。精准的心音自动分析系统,可辅助医生进行临床诊断,提高诊断的准确性,弥补经验性判决的不足;同时,也可用于群体庞大的体检筛查,减少医学检测人力和物力的成本,提高检测效率。因此,研究有效的心音分析算法,对
学位