基于机器学习的癌症驱动基因辨识研究

被引量 : 0次 | 上传用户:zemao1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症的发病率和死亡率较高,是当前影响人类健康的主要疾病之一。现代生物技术不断进步,使得从基因分子水平研究癌症发病机制成为可能。驱动基因可使细胞获得选择性生长优势,对癌症的发生和发展起明显促进作用。辨识驱动基因对癌症诊断、药物研发、预后判断及精准医疗具有重要意义。然而,生物实验方法确定驱动基因价格高昂且耗时较长。随着二代测序技术的发展,癌症基因组图谱(the cancer genome atlas,TCGA)等基因组项目为研究人员提供了大量癌症样本的基因测序数据。通过计算方法分析这些数据进而辨识驱动基因可以缩小候选驱动基因范围,为进一步的实验验证及临床研究提供有力参考。由于同种癌症类型的病人也可能具有不同的驱动基因,且基因突变数据具有低样本高维度的特点,导致基于计算方法辨识驱动基因面临巨大挑战。论文应用机器学习方法分析测序数据并辨识癌症驱动基因,主要工作包括以下几方面:1.针对随机采样估计背景分布导致算法不稳定的问题,提出一种基于神经网络的功能影响驱动基因辨识算法。首先,使用BP神经网络模型建立基因遗传特征与功能影响得分之间的非线性关系,预测基因的功能影响得分。然后,基于遗传特征对基因进行层次聚类,在每个聚类簇中利用最大似然估计方法拟合伽玛分布作为背景功能影响得分分布。最后,基于背景分布利用显著性检验辨识驱动基因。该算法应用于TCGA数据库中的31个癌症突变数据集,辨识的驱动基因的平均有害突变比为0.8368,在癌症基因统计(cancer gene census,CGC)和癌症基因网络(network of cancer genes,NCG)数据库中的平均精度分别为55.62%和86.85%,优于其他21种驱动基因辨识算法。2.基因通过相互作用关系被分组到不同的信号通路中,因此基于以上独立驱动基因的研究基础,进一步辨识对癌症发展起推动作用的一组基因集合,提出鲁棒自适应驱动基因集辨识算法,解决了强互斥性导致基因集出现不平衡突变模式的问题。首先,分析癌症信号通路突变模式得出基因的覆盖度与重复覆盖贡献度高度正相关,即高突变频率基因总是与其他基因共同发生突变,因此辨识驱动基因集时应允许适当的重复覆盖。然后,引入与突变频率负相关的自适应权重调节对不同突变频率基因互斥性的要求,并将留一法子采样策略与遗传算法结合建立具有鲁棒性的数学规划模型。该算法应用于三个癌症突变数据集,辨识的驱动基因集在满足互斥性的前提下获得较高的覆盖度,且在Erb B、MAPK及PI3K-Akt等重要的癌症信号通路中富集。肺腺癌突变数据扰动实验中10个元素0置换为1和1置换为0情况下,该算法分别以75%和81%的频率辨识同一驱动基因集,抵抗数据扰动的能力优于其他四种同类算法。3.对样本数量少的突变数据使用突变病人基数调节互斥性权重可能产生偏差,因此在上述鲁棒自适应模型的基础上,提出基于多组学分析的驱动基因集辨识算法。首先,分析突变频率影响因素并将表达水平引入权重函数调节基因互斥性,结合基因组学和转录组学信息辨识驱动基因集。该算法应用于肺腺癌突变数据集,辨识的驱动基因集具有高覆盖性和互斥性,且在Erb B、MAPK及非小细胞肺癌信号通路中富集。另外,为了排除原始突变数据中无关基因对驱动基因集辨识算法的干扰,提出基于信息熵的突变矩阵提取算法,通过最小化基因突变信息熵识别一组最有价值的突变类别,并确定候选基因集和对应的突变矩阵。突变矩阵提取算法应用于卵巢癌突变数据集确定了五种最优突变类别,使候选基因由9901个缩减到471个且同时保留高突变频率和低突变频率基因。4.以上驱动基因辨识算法可以为癌症的靶向药物治疗提供参考,然而癌症病人对抗癌药物的敏感性不同,且抗癌药物响应相关的基因特征选择面临维数灾难问题,鉴于此,进一步提出基于自动编码器网络的抗癌药物响应驱动基因辨识算法。首先,训练自动编码器网络,通过网络权重评估基因特征的贡献度实现初步特征降维。然后,利用Boruta算法选择加噪后对细胞系药物敏感性影响显著的特征作为抗癌药物响应驱动基因。另外,对类不平衡数据集应用Easy Ensemble采样进行特征集成处理,充分利用多数类样本信息。最后,基于所选择的驱动基因利用随机森林分类器预测细胞系的药物敏感性。该算法在肺癌的靶向药物PLX4720和BIBW2992上辨识到与肺癌和肺癌靶向信号通路相关的驱动基因。在癌症药物敏感性基因组学(genomics of drug sensitivity in cancer,GDSC)和癌细胞系百科全书(cancer cell line encyclopedia,CCLE)数据库中预测药物敏感性的平均AUC分别为0.7116和0.8210,较其他四种同类算法更优。
其他文献
当前,住宅室内设计中普遍存在着能源过度使用和利用率低下的问题,这不仅与居民的生活习惯有关,也与室内的功能性有关。为了实现低碳生活,减少资源浪费,尽可能营造舒适的室内环境,减少能源的使用,应将低碳理念贯穿住宅室内设计的整个流程。为此,本文对室内设计的概念和起源进行了系统分析,阐述了低碳理念推动室内设计变革内容,探究了住宅室内设计中暴露出的问题,并详细论述了低碳理念下住宅室内设计的策略,为住宅室内设计
期刊
我国主要的重点产业是建筑业,在建设国民经济中发挥着至关重要的作用,建筑业的发展对上下游产业和周边产业都产生了重大影响。我国建筑业在改革开放以来实现了跨越式发展,多方面进步给企业带来了巨大的经济效益,取得成绩的同时,建设工程的安全和质量也引起了人们的关注。伴随市场经济体制改革的加快,建筑业的形势发生了翻天覆地的变化,不断加剧的市场竞争给企业带来了巨大压力,也为企业创造了广阔的发展空间。因此,增强企业
期刊
为解决当前建筑工程管理技术在实际应用中的管理绩效考核评价结果不符合预期要求的问题,开展建筑智能化工程管理技术及应用探析研究。在明确建筑智能化的基本概念、目的以及现有管理技术存在的不足基础上,通过建立建筑智能化工程管理模块划分、建筑智能化工程管理程序、基于BIM技术的工程运维集中管理,提出一种全新的管理技术。通过实践应用证明,新的管理技术在实践应用中能够提高绩效考核评价满意度,实现对工程项目的智能化
期刊
提高建筑工程项目的质量、确保建筑工程安全和降低建筑成本在建筑工程的管理方面发挥着重要作用。建筑公司必须充分了解整个施工过程中工程和建筑项目管理方面的缺陷及不足,在管理建筑协会方面做了大量工作,以改进建筑管理,提高建筑公司的总体效率,促进建筑公司更好地发展。
期刊
<正>我国古代有伊尹创制汤液的传说,在《汉书·艺文志》里有《汤液经法》32卷。清代名医陆九芝写的《张仲景传》里有"仲景论广伊尹汤液为数十卷,用之多验"的话,可见我国用方剂治疗疾病的时间很早,发展到了汉代的张仲景,已经有了具体治疗的规律,所以称张仲景为医方学之祖。张仲景名机,后汉南阳郡湼阳(今河南省南阳县)人。约生于公元150一219年(后汉和平元年一建安24年左右)。他是一位卓越有创造性的医学家,
会议
<正>随着全球贸易如火如荼的进行,中国纺织业作为基础性、支柱性制造业之一,及时抓住了时代机遇,不断扩大进出口规模,发展外向型贸易经济,实现了自身的转型升级和跨越发展。在此情况下,掌握良好的英语应用能力、灵活进行跨文化交际,成为推动纺织业开辟国际市场、增强贸易竞争实力的必要条件和内在要求。为此,高校纺织专业须加快学科建设步伐,创新英语教学模式,培养更多优秀的高质量纺织人才。由郑亚娟、曾令宙、杨雪主编
期刊
<正> 近年来随着人民生活水平的提高,托儿机构的伙食标准较前显著提高,卫生条件也有很大的改善,但从调查统计的资料来看,在托儿机构中生活的乳幼儿中营养不良性贫血的发病率并未下降。为摸清其发病原因,我们对贫血患儿作了大量的普查工作,并就患营养不良性贫血的154例乳幼儿进行了健脾、益气、补血的中医治疗观察。现总结如下:
期刊
<正>坚持“五育并举”,全面发展素质教育,是我国新时代教育的基本方针。而“五育融合”是落实“五育并举”的理念和方法,突显了教育指向每一个生命个体健康发展的完整性。《福建教育》 2021年10月刊(2021年第43期)“关注”栏目“走向‘五育融合’的班级育人”专题给笔者诸多启发。结合自身思考,笔者认为要在班级育人中实践“五育融合”,须在四个字上下功夫。
期刊
新中式风格是对中国传统文化的传承和创新,是对古代家具装饰的再创造。新中式风格在现代室内设计中的运用,不仅体现了中国传统文化的气韵,更使其成为一种现代潮流。在经济社会高速发展的今天,人们追求更高的生活品质,对现代室内设计的要求也越来越高。因此,对新中式风格现代室内设计进行研究很有必要。对此,主要分析了如何科学地将传统文化元素融入现代室内设计中,以期为现代室内设计提供一些参考。
期刊
高中班主任可以通过创建红色班级,在班级建设中有序开展红色文化教育活动,引导学生理解、体悟红色文化,将红色精神内化于心、外化于行。班级红色文化建设过程中,班主任要注重家庭、学校、社区协同育人,积极探索红色文化班本课程,通过创新传递方式、开展实践活动,激发学生的爱国之心与报国之志,为中华民族伟大复兴“燃梦”奋进。
期刊