论文部分内容阅读
肝脏(Liver)是人体最大的内脏器官和消化腺,对维持人体的正常生命活动发挥着重要作用。其功能复杂多样,主要包括:分泌胆汁、调节蛋白质、脂肪和碳水化合物的新陈代谢、储藏淀粉、解毒、造血和凝血作用等。近年来,随着大规模“组学”研究的兴起和“人类肝脏蛋白质组计划(Human Liver Proteome Project,HLPP)”的顺利实施,大量肝脏相关的生物学数据被产出,并散布于不同的生物学数据库或科学文献,不便于科学家提取、利用和数据整合。肝细胞癌(Hepatocellular carcinoma, HCC)是恶性程度最高的肿瘤之一,其发病率和病死率分别位居全球恶性肿瘤第五和第四位。我国是肝细胞癌的高发区,每年新发病例超过三十五万,病死率占恶性肿瘤死因的第二位。肝细胞癌易于侵犯门静脉形成癌栓,导致癌细胞的播散和远处转移。因其临床表现隐匿,不易发现,一经确诊,往往已经处于中晚期,临床预后极为不佳。可见,提高肝细胞癌的早期发现和综合治疗水平具有重要的临床价值和社会意义,这就需要探寻更多、更可靠的肝细胞癌生物标志物、建立更精准的肝细胞癌早期诊断方法。针对上述问题,本课题利用生物信息学的数据处理技术,一方面,构建了新型、高效的肝细胞癌预测模型;另一方面,通过收集、归纳并整理现有肝脏相关的生物学数据,构建了肝脏综合知识库-LiverAtlas。从而为肝脏的系统生物学研究奠定数据基础和技术基础。第一部分基于系统生物学研究策略的肝细胞癌预测模型的构建[目的]旨在利用系统生物学分析策略,结合肝细胞癌差异表达数据分析与蛋白质相互作用网络的拓扑特征分析,筛选与肝细胞癌密切相关的候选生物标志物,并结合生物信息学方法构建肝细胞癌预测模型,从而提高肝细胞癌的早期诊断水平。[方法](1)从Gene Expression Omnibus (GEO, http://www.ncbi.nlm.nih.gov/geo/)数据库收集三个基因表达谱数据集(肝细胞癌组织对照非癌肝脏组织);(2)利用ONCOMINE(https://www.oncomine.org)分析平台筛选共存性差异表达基因,结合基因注释信息,总结基因差异表达状况与肝细胞癌不同生物学行为的关系并确定对肝细胞癌进展具有重要意义的功能基因;(3)利用GeneGO Meta-Core软件构建上述功能基因的相互作用网络,并系统分析其拓扑特征;(4)筛选网络中发挥重要功能并具有紧密相互作用关系的hub基因,针对其表达量,采用偏最小二乘法,构建肝细胞癌预测模型;(5)采用独立测试集验证及五倍交叉验证对肝细胞癌预测模型的性能进行综合评估;(6)运用前列腺癌的相关数据,采用上述建模方法,构建前列腺癌预测模型并对其性能进行评估;(7)对两个肝细胞癌候选生物标志物-MAPK1蛋白和NCOA2蛋白进行基于临床样本的免疫组织化学染色验证。[结果](1)利用ONCOMINE数据分析平台,对比3个肝细胞癌与非癌肝脏组织间的基因表达谱数据集,筛选出一批3个数据集共同鉴定到的、与肝细胞癌进展密切相关的功能基因(其中包括116个在肝细胞癌组织中表达上调的基因和111个在肝细胞癌组织中表达下调的基因);(2)利用GeneGo-MetaCore软件构建上述功能基因的相互作用网络,并筛选出在网络中发挥重要功能并具有紧密相互作用关系的17个hub基因(all-edge cutoff>30且hidden-edge<50%)作为肝细胞癌的候选生物标志物,其中包括10个在肝细胞癌组织中表达上调的基因和7个在肝细胞癌组织中表达下调的基因;(3)基于上述hub基因的表达量,运用偏最小二乘法,构建肝细胞癌预测模型。经独立测试集验证表明该模型的预测准确性大于85.00%,接受者操作特性曲线下面积大于0.90;经五倍交叉验证表明该模型的预测性能良好且稳定;(4)不断变换进入模型的hub与non-hub基因的比例(每个比例随机重复100次),当hub基因不变,成比例地加入non-hub基因,对模型的预测性能没有显著提高(p>0.05);若成比例地减少模型中的hub基因并加入non-hub基因,随着进入模型的non-hub基因个数的增加,模型的预测性能显著下降(p<0.05);(5)采用同样建模方法,运用前列腺癌组织的基因表达谱数据,构建前列腺癌预测模型,独立测试集验证结果显示该模型预测准确性为84.79±6.53%,接受者操作特性曲线下面积为0.82±0.10;不断变换进入前列腺癌预测模型的hub与non-hub基因的比例,结果同肝细胞癌预测模型;(6) MAPK1蛋白和NCOA2蛋白在肝细胞癌组织中的表达水平均显著高于非癌肝脏组织(均p<0.01)。其中MAPK1蛋白的表达水平与肝细胞癌组织的分化程度呈负相关(p=0.03),而NCOA2蛋白的表达水平则与肝细胞癌组织的Edmondson-Steiner分级呈正相关(p=0.04)。[结论]本研究通过整合肝细胞癌组织中的分子表达特征及肝细胞癌相关分子网络的拓扑特征,筛选出一批肝细胞癌候选生物标志物并建立一种新型的肝细胞癌预测模型。该模型性能良好且稳定。本研究的建模方法还适用于其他肿瘤,对肿瘤早期诊断具有重要的临床意义。第二部分肝脏综合知识库—LiverAtlas的构建[目的]旨在构建LiverAtlas数据库——肝脏相关的生物学综合知识库,同时为用户提供方便、直观、可视化的查询分析系统。[方法](1) LiverAtlas数据库的架构设计;(2) LiverAtlas数据库的数据收集:从53个现有生物学及文献数据库中收集肝脏相关的转录组数据集,正常肝脏(特异性)表达基因/蛋白质,肝细胞癌差异表达基因/蛋白质,肝脏相关分子的相互作用信息、肝脏相关蛋白质的翻译后修饰信息、肝脏相关分子参与的通路信息(信号转导通路及代谢通路)及肝脏疾病相关基因/蛋白质;(3) LiverAtlas数据库的数据整理:将不同类型的基因和蛋白质编号分别统一为Entrez Gene ID和Uniprot ID,再对每个基因或蛋白质给予唯一的LiverAtlas Gene ID和LiverAtlas Protein ID, LiverAtlas数据库中的所有信息均通过LiverAtlas Gene ID和LiverAtlas Protein ID相互联系;(4) LiverAtlas数据库的数据质量评估:采用半定量评价方法,综合考虑数据来源的鉴定方法及来源的数目,计算数据库中每条信息的质量评分;(5) LiverAtlas数据库的构建;(6)为寻找与肝脏生理和病理相关的规律,对LiverAtlas数据库中所储存的信息进行深入的数据挖掘和分析;(7)应用举例:运用LiverAtlas数据库中的肝细胞癌差异表达数据和蛋白质相互作用数据进行肝细胞癌候选生物标志物的筛选。[结果](1) LiverAtlas数据库的基本架构:整合肝脏相关的基因组学、肝脏转录组学、肝脏蛋白质组学、肝脏代谢组学、肝脏相关的信号通路及肝脏疾病等六部分生物学知识,通过Web提供服务,用户通过输入关键词(基因、蛋白质或疾病等),系统查询相关信息,经计算分析,输出可视化结果;(2) LiverAtlas数据库包括的数据内容:Ⅰ)19801个肝脏相关基因,其中,117个(5.91%)为肝脏特异性表达基因,4797个(24.23%)为肝细胞癌差异表达基因;Ⅱ)50265个肝脏相关蛋白质,其中,45949个(91.41%)经人类肝脏蛋白质组学实验验证,162个(0.32%)为肝脏特异性表达蛋白质,1210个(2.41%)为肝细胞癌组织/血浆中特异性表达蛋白质; Ⅲ)353914对蛋白质相互作用,其中,643条(0.18%)经人类肝脏蛋白质组学实验验证; Ⅳ)88863条蛋白质翻译后修饰信息,其中,最常见的修饰类型为磷酸化修饰[80839(90.97%)],另有2252条(2.53%)蛋白质翻译后修饰信息经人类肝脏蛋白质组学实验验证;Ⅴ)639条由肝脏相关蛋白质或基因参与的通路信息,其中,487条(76.21%)条为代谢通路,152条(23.79%)条为信号转导通路;Ⅵ)59种肝脏疾病及其相关的18243条分子事件,包括这些疾病相关的基因、蛋白质、通路及文献信息。(3)根据统计结果,LiverAtlas数据库中,中、高可信度的数据所占比例接近98%;(4)利用LiverAtlas数据库中的肝细胞癌差异表达数据和蛋白质相互作用网络分析,筛选得到9个肝细胞癌候选生物标志物;(5)采用肝细胞癌临床组织样本,经免疫组织化学染色实验验证上述肝细胞癌候选生物标志物,发现骨形态形成蛋白4、骨形态形成蛋白7和肌球蛋白Ⅵ与肝细胞癌的恶性进展密切相关。[结论]本研究构建的肝脏相关生物学综合知识库-LiverAtlas,为用户提供规范的数据存储、简便的数据提取和查询系统;该数据库为肝脏研究领域的科研人员提供良好的信息平台,有利于从整体上了解不同肝脏生理及病理过程的分子机制;方便用户收集肝脏相关的生物学信息,为科研人员从整体着手、系统研究肝脏提供有力工具。