基于系统生物学研究策略的肝细胞癌预测模型及肝脏综合知识库LiverAtlas的构建

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:QQQ16416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肝脏(Liver)是人体最大的内脏器官和消化腺,对维持人体的正常生命活动发挥着重要作用。其功能复杂多样,主要包括:分泌胆汁、调节蛋白质、脂肪和碳水化合物的新陈代谢、储藏淀粉、解毒、造血和凝血作用等。近年来,随着大规模“组学”研究的兴起和“人类肝脏蛋白质组计划(Human Liver Proteome Project,HLPP)”的顺利实施,大量肝脏相关的生物学数据被产出,并散布于不同的生物学数据库或科学文献,不便于科学家提取、利用和数据整合。肝细胞癌(Hepatocellular carcinoma, HCC)是恶性程度最高的肿瘤之一,其发病率和病死率分别位居全球恶性肿瘤第五和第四位。我国是肝细胞癌的高发区,每年新发病例超过三十五万,病死率占恶性肿瘤死因的第二位。肝细胞癌易于侵犯门静脉形成癌栓,导致癌细胞的播散和远处转移。因其临床表现隐匿,不易发现,一经确诊,往往已经处于中晚期,临床预后极为不佳。可见,提高肝细胞癌的早期发现和综合治疗水平具有重要的临床价值和社会意义,这就需要探寻更多、更可靠的肝细胞癌生物标志物、建立更精准的肝细胞癌早期诊断方法。针对上述问题,本课题利用生物信息学的数据处理技术,一方面,构建了新型、高效的肝细胞癌预测模型;另一方面,通过收集、归纳并整理现有肝脏相关的生物学数据,构建了肝脏综合知识库-LiverAtlas。从而为肝脏的系统生物学研究奠定数据基础和技术基础。第一部分基于系统生物学研究策略的肝细胞癌预测模型的构建[目的]旨在利用系统生物学分析策略,结合肝细胞癌差异表达数据分析与蛋白质相互作用网络的拓扑特征分析,筛选与肝细胞癌密切相关的候选生物标志物,并结合生物信息学方法构建肝细胞癌预测模型,从而提高肝细胞癌的早期诊断水平。[方法](1)从Gene Expression Omnibus (GEO, http://www.ncbi.nlm.nih.gov/geo/)数据库收集三个基因表达谱数据集(肝细胞癌组织对照非癌肝脏组织);(2)利用ONCOMINE(https://www.oncomine.org)分析平台筛选共存性差异表达基因,结合基因注释信息,总结基因差异表达状况与肝细胞癌不同生物学行为的关系并确定对肝细胞癌进展具有重要意义的功能基因;(3)利用GeneGO Meta-Core软件构建上述功能基因的相互作用网络,并系统分析其拓扑特征;(4)筛选网络中发挥重要功能并具有紧密相互作用关系的hub基因,针对其表达量,采用偏最小二乘法,构建肝细胞癌预测模型;(5)采用独立测试集验证及五倍交叉验证对肝细胞癌预测模型的性能进行综合评估;(6)运用前列腺癌的相关数据,采用上述建模方法,构建前列腺癌预测模型并对其性能进行评估;(7)对两个肝细胞癌候选生物标志物-MAPK1蛋白和NCOA2蛋白进行基于临床样本的免疫组织化学染色验证。[结果](1)利用ONCOMINE数据分析平台,对比3个肝细胞癌与非癌肝脏组织间的基因表达谱数据集,筛选出一批3个数据集共同鉴定到的、与肝细胞癌进展密切相关的功能基因(其中包括116个在肝细胞癌组织中表达上调的基因和111个在肝细胞癌组织中表达下调的基因);(2)利用GeneGo-MetaCore软件构建上述功能基因的相互作用网络,并筛选出在网络中发挥重要功能并具有紧密相互作用关系的17个hub基因(all-edge cutoff>30且hidden-edge<50%)作为肝细胞癌的候选生物标志物,其中包括10个在肝细胞癌组织中表达上调的基因和7个在肝细胞癌组织中表达下调的基因;(3)基于上述hub基因的表达量,运用偏最小二乘法,构建肝细胞癌预测模型。经独立测试集验证表明该模型的预测准确性大于85.00%,接受者操作特性曲线下面积大于0.90;经五倍交叉验证表明该模型的预测性能良好且稳定;(4)不断变换进入模型的hub与non-hub基因的比例(每个比例随机重复100次),当hub基因不变,成比例地加入non-hub基因,对模型的预测性能没有显著提高(p>0.05);若成比例地减少模型中的hub基因并加入non-hub基因,随着进入模型的non-hub基因个数的增加,模型的预测性能显著下降(p<0.05);(5)采用同样建模方法,运用前列腺癌组织的基因表达谱数据,构建前列腺癌预测模型,独立测试集验证结果显示该模型预测准确性为84.79±6.53%,接受者操作特性曲线下面积为0.82±0.10;不断变换进入前列腺癌预测模型的hub与non-hub基因的比例,结果同肝细胞癌预测模型;(6) MAPK1蛋白和NCOA2蛋白在肝细胞癌组织中的表达水平均显著高于非癌肝脏组织(均p<0.01)。其中MAPK1蛋白的表达水平与肝细胞癌组织的分化程度呈负相关(p=0.03),而NCOA2蛋白的表达水平则与肝细胞癌组织的Edmondson-Steiner分级呈正相关(p=0.04)。[结论]本研究通过整合肝细胞癌组织中的分子表达特征及肝细胞癌相关分子网络的拓扑特征,筛选出一批肝细胞癌候选生物标志物并建立一种新型的肝细胞癌预测模型。该模型性能良好且稳定。本研究的建模方法还适用于其他肿瘤,对肿瘤早期诊断具有重要的临床意义。第二部分肝脏综合知识库—LiverAtlas的构建[目的]旨在构建LiverAtlas数据库——肝脏相关的生物学综合知识库,同时为用户提供方便、直观、可视化的查询分析系统。[方法](1) LiverAtlas数据库的架构设计;(2) LiverAtlas数据库的数据收集:从53个现有生物学及文献数据库中收集肝脏相关的转录组数据集,正常肝脏(特异性)表达基因/蛋白质,肝细胞癌差异表达基因/蛋白质,肝脏相关分子的相互作用信息、肝脏相关蛋白质的翻译后修饰信息、肝脏相关分子参与的通路信息(信号转导通路及代谢通路)及肝脏疾病相关基因/蛋白质;(3) LiverAtlas数据库的数据整理:将不同类型的基因和蛋白质编号分别统一为Entrez Gene ID和Uniprot ID,再对每个基因或蛋白质给予唯一的LiverAtlas Gene ID和LiverAtlas Protein ID, LiverAtlas数据库中的所有信息均通过LiverAtlas Gene ID和LiverAtlas Protein ID相互联系;(4) LiverAtlas数据库的数据质量评估:采用半定量评价方法,综合考虑数据来源的鉴定方法及来源的数目,计算数据库中每条信息的质量评分;(5) LiverAtlas数据库的构建;(6)为寻找与肝脏生理和病理相关的规律,对LiverAtlas数据库中所储存的信息进行深入的数据挖掘和分析;(7)应用举例:运用LiverAtlas数据库中的肝细胞癌差异表达数据和蛋白质相互作用数据进行肝细胞癌候选生物标志物的筛选。[结果](1) LiverAtlas数据库的基本架构:整合肝脏相关的基因组学、肝脏转录组学、肝脏蛋白质组学、肝脏代谢组学、肝脏相关的信号通路及肝脏疾病等六部分生物学知识,通过Web提供服务,用户通过输入关键词(基因、蛋白质或疾病等),系统查询相关信息,经计算分析,输出可视化结果;(2) LiverAtlas数据库包括的数据内容:Ⅰ)19801个肝脏相关基因,其中,117个(5.91%)为肝脏特异性表达基因,4797个(24.23%)为肝细胞癌差异表达基因;Ⅱ)50265个肝脏相关蛋白质,其中,45949个(91.41%)经人类肝脏蛋白质组学实验验证,162个(0.32%)为肝脏特异性表达蛋白质,1210个(2.41%)为肝细胞癌组织/血浆中特异性表达蛋白质; Ⅲ)353914对蛋白质相互作用,其中,643条(0.18%)经人类肝脏蛋白质组学实验验证; Ⅳ)88863条蛋白质翻译后修饰信息,其中,最常见的修饰类型为磷酸化修饰[80839(90.97%)],另有2252条(2.53%)蛋白质翻译后修饰信息经人类肝脏蛋白质组学实验验证;Ⅴ)639条由肝脏相关蛋白质或基因参与的通路信息,其中,487条(76.21%)条为代谢通路,152条(23.79%)条为信号转导通路;Ⅵ)59种肝脏疾病及其相关的18243条分子事件,包括这些疾病相关的基因、蛋白质、通路及文献信息。(3)根据统计结果,LiverAtlas数据库中,中、高可信度的数据所占比例接近98%;(4)利用LiverAtlas数据库中的肝细胞癌差异表达数据和蛋白质相互作用网络分析,筛选得到9个肝细胞癌候选生物标志物;(5)采用肝细胞癌临床组织样本,经免疫组织化学染色实验验证上述肝细胞癌候选生物标志物,发现骨形态形成蛋白4、骨形态形成蛋白7和肌球蛋白Ⅵ与肝细胞癌的恶性进展密切相关。[结论]本研究构建的肝脏相关生物学综合知识库-LiverAtlas,为用户提供规范的数据存储、简便的数据提取和查询系统;该数据库为肝脏研究领域的科研人员提供良好的信息平台,有利于从整体上了解不同肝脏生理及病理过程的分子机制;方便用户收集肝脏相关的生物学信息,为科研人员从整体着手、系统研究肝脏提供有力工具。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:观察手外伤术后应用通络续筋方内服结合熏洗对手功能恢复的影响。方法:116例随机分为观察组和对照组各58例。两组均用基础治疗结合熏洗,观察组加用通络续筋方内服。结果
<正>排列组合问题与实际联系密切,生动有趣,利于培养学生的探究能力和数学思维能力.但排列组合问题往往题型多样,思路灵活,积极探求、总结某些特殊排列组合问题的解题规律与
期刊
目的总结胰岛素瘤误诊的原因和诊治方法。方法回顾性分析我院1990~2008年24例胰岛素瘤误诊病例的临床资料。结果本组24例从发病到确诊的时间为2个月到6年不等。多被误诊为神经
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
2010年9月28日,备受关注的国美电器“黄陈之争”终于有了阶段性结果。国美电器创始大股东黄光裕发起的5项决议案中4项落败,陈晓将留任国美电器控股有限公司董事局主席。没有装
针对线天线自动设计中运算时间过长问题,提出了一种基于主从模型的并行森林竞争算法优化模型.主进程执行森林动态演化的竞争模型,从进程并行地执行自然树生长竞争模型并调用
[摘要]目的研究血浆同型半胱氨酸水平与无症状性脑梗死的关系。方法运用高效液相色谱法测定60例门诊和住院的无症状性脑梗死患者及60例健康體检者血浆总同型半胱氨酸(tHcy)水平。 本文为全文原貌 未安装PDF浏览器用户请先下载安装
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
用原子荧光光度计对市售富硒胶囊中硒元素的进行检测,并进行方法学研究。该方法的可行性及数据的准确性较高,符合检测要求.采用微波消解的方式对市面上售卖的富硒胶囊中硒元