基于多组学数据的癌症生物标志物识别算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xiaohan521325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症不仅给患者带来极大的痛苦,还给无数家庭乃至整个国家带来沉重的经济负担。早期诊断是有效治疗癌症的关键所在。生物标志物在癌症早期诊断中具有重要价值。生物标志物是指那些能够客观检测和评价癌症发生、发展和预后的指示因子,如基因、microRNA和遗传突变等。一些癌症相关的生物标志物已被发现,但大多数仍然不能用于癌症的精准预测、诊断和预后评估。其中一个原因在于癌症病理机制极其复杂,患同一癌症的不同病人之间标志物不尽相同,同一标志物可能存在于多种癌症中。越来越多的研究表明癌症是多个基因、microRNA等突变、转录后修饰及其之间复杂调控关系的紊乱,以及环境因素等共同作用的结果。因此,新的生物标志物识别方法亟待提出。实验手段识别癌症生物标志物非常昂贵且效率低,基于计算方法的癌症生物标志物识别能够大大降低成本和缩短识别周期。随着测序技术的发展,基因组学、转录组学、蛋白组学与代谢组学等多种组学数据海量涌现,为系统了解癌症的病理病因提供了可能,也为基于计算方法的癌症生物标志物识别提供了坚实的数据基础。如何整合多组学数据设计并实现高效的癌症生物标志物识别算法,找出更多更有价值的癌症生物标志物,以供研究人员有针对性的进行实验探究将是本文研究的主要内容。癌症生物标志物识别研究领域已有多种算法被提出,通过对该领域相关算法的深入研究和系统分析,我们发现该领域的计算识别方法按照研究对象的不同可以划分为三类:第一类,以单一标志物作为研究对象,如基因差异表达分析;第二类,以功能模块为研究对象,如对基因表达数据进行聚类分析;第三类,以生物网络为研究对象,如通过网络邻接关系结合已有的生物标志物识别出新的标志物。这些方法虽然取得了一定的识别精度,但是仍然面临诸多挑战,主要表现在:第一,基因、microRNA等多以功能模块发挥作用。以单一标志物为研究对象的算法没有考虑它们在功能模块中的重要性,而以功能模块为研究对象的方法很少考虑功能模块的动态变化。第二,多数方法对基因和microRNA等转录组数据独立分析,难以识别标志物间的调控变化,尤其是microRNA和基因间的调控作用关系。已有研究表明两者间调控关系的变化与癌症发生有关。第三,基于单一组学数据,识别效率和精度较低,难以满足面向全基因组和跨多种癌症大规模数据分析的需求。此外,多数算法还缺乏对识别结果进行基于样本生存曲线的判别分析。针对这些挑战,本文开展如下研究:第一,提出了一种新的基因关联网络构建算法(Linear and Probabilistic Relations Prediction,LPRP算法)。基于该算法和相关组学数据分别构建了乳腺癌和正常样本的基因关联网络。并从基因、功能模块和网络连接变化的角度系统对比两网络间的异同,为本文基于基因、功能模块和调控关系变化的癌症标志物识别算法研究奠定研究基础。第二,提出了基于差异模块识别癌症标志物基因新算法(Module and Gene Ontology-based Gene Prioritization,MGOGP算法)。基因以功能模块为单位发挥作用(基因→功能模块→网络),关键致癌基因会形成显著变化的功能模块(简称:差异模块)。该算法综合考虑基因及其所属差异模块的重要性,并把基因和已知的癌症标志物基因在基因本体注释(Gene Ontology,GO)上的模糊度量值作为启发式搜索信息。该算法能有效解决当前算法忽略基因在功能模块中的作用以及功能模块动态变化的问题。第三,提出识别编码基因、microRNA和基因--microRNA相互作用关系作为癌症生物标志物的新算法(rectified factor network for cancer-related coding Gene,MicroRNA and their Interactions detection,rfnGMI 算法)。该算法引入高效双聚类方法识别癌症特异性功能模块,并对模块中的编码基因和microRNA的差异表达和差异相关(Differential correlation)值进行度量。利用蛋白质相互作用网络和已知的癌症标志物对模块中的基因、microRNA进行优先级排序,结合模块的重要性使用融合排序策略得到对所有标志物的全局排序。该算法不仅考虑模块动态变化,还弥补了当前研究对microRNA和基因间调控关系变化考虑不足的问题。第四,设计并实现了一种新的基于改进整流因子网络模型的标志物识别算法(BIclustering based Survival related Gene sets detection,BISG 算法)。该算法整合分析转录组和基因组数据,采取多次迭代和随机抽样策略,并对统计显著的双聚类模块基因使用对数秩检验分析其与患者生存状况的关系。结果表明,算法识别的标志物基因集可以显著区分患者生存状况。该算法有效解决了由于基因组合爆炸所带来的搜索空间指数增长的问题。通过系统分析十二种不同的癌症数据集发现与癌症患者存活时间相关的标志物基因主要来自五个基因家族:microRNA蛋白编码宿主基因(microRNA protein coding host genes),锌指 C2H2 型(zinc fingers C2H2-type),溶质载体(solute carriers),分化簇分子(cluster of differentiation molecules)和 ankyrin 重复结构域包含基因家族(ankyrin repeat domain containing)。此外,我们发现这些基因主要与血红素代谢,凋亡,缺氧和炎症反应相关。所有这些结果都与现有研究结果一致,进一步验证了该算法的有效性。
其他文献
运动休闲特色小镇作为一项开创性的“体育工程”建设,是我国提出的符合特色社会主义事业发展要求的重要城镇概念,其既对加快我国城镇化进程,促进城乡一体化,推动经济落后地区利用自身资源禀赋改变贫穷面貌,助力脱贫攻坚工作起到重要的意义与价值,也是促进体育事业发展的重要推手,为推动体育产业供给侧改革、促进全民健身和健康中国建设提供新的动力。随着休闲时代的来临,我国人民对运动休闲日益增长的需求与消费呈现高增长、
浙江大学附属邵逸夫医院眼科主任姚玉峰,与93岁的中国工程院院士黄旭华,在全国精神文明建设表彰大会的相遇,促成了一段佳话。老院士黄旭华说自己看不清文件上的字,姚玉峰听者有心
报纸
英国男士最具绅士风度,这是世界人民所公认的,随着茶文化在英国的普及,英国茶文化中所蕴藏的绅士风度也体现得更加明显,英国人钟爱饮茶,将饮茶视为生活的一部分,每天都会有固
环己酮是一种重要的有机化工原料,用于生产己二胺、己内酰胺等化工产品。工业上环己酮主要是由环己烷无催化氧化法生产的。首先通过环己烷氧化获得重要的中间产物环己基过氧化氢(CHHP),然后再催化CHHP分解得到环己醇和环己酮的混合物。传统的CHHP加碱催化分解工艺只能得到87%的醇酮总选择性,并且产生大量的废碱液,造成环境污染。因此开发出高效绿色的分解工艺对提高环己酮生产效率具有重要作用。过渡金属负载型
企业进行人力资源管理过程的首要环节就是招聘工作,那么,招聘工作同时也是人力资源管理最重要且最基本的工作,招聘工作做的好不仅仅是为企业注入新鲜血液,弥补新鲜力量,并获得优秀人才的渠道,也决定了企业能否建立一个有效的人力资源体系,为企业赢得更大竞争优势。因此,找出企业在招聘过程中存在的问题,并找到解决方案,对于人力资源管理具有重要意义,那么对企业未来的长期发展也是有着重大作用的。现如今企业面对着竞争激
党的十九大报告提出要坚持新发展理念:“发展是解决我国一切问题的基础和关键,发展必须是科学发展,必须坚定不移贯彻“创新、协调、绿色、开放、共享的发展理念”。中国共产党第十八届中央委员会第五次全体会议提出”创新,协调,绿色,开放,共享”五大发展理念,其中创新理念处于首要位置。创新理念是指企业或个人打破常规,突破现状,敢为人先,敢于挑战未来,谋求新境界的思想观念。我国煤炭企业要创新的前提是基于对现状的不
为了系统地分析箱形截面薄壁墩的抗震性能,对4个模型进行了拟静力试验,分析了位移测试结果,探讨了配箍率和轴压比对模型墩的耗能能力、刚度退化特性的影响。试验结果表明:模型
本文使用2005-2010年珠海生产性服务业和27个制造业细分行业的数据,通过建立VAR模型,分析了生产性服务业对制造业竞争力的影响。实证结果表明,在多数行业,珠海生产性服务业贡
回顾2019年艺术市场,有三个趋势值得关注:$$一、据雅昌艺术市场监测中心《中国艺术品拍卖市场调查报告(2019上半年)》显示,2019年上半年国内艺术品拍卖市场成交量较去年同比
报纸
沟床冲刷深度是泥石流灾害防治工程设计最重要的参数之一,但到目前为止,关于黏性泥石流沟床冲刷的研究较少,沟床冲刷深度还没有权威可信的计算方法,是泥石流防治工程设计急需