论文部分内容阅读
乳腺癌是全世界严重威胁女性健康的首位恶性肿瘤。在近十年里,不仅在发达国家里乳腺癌的发病率持续升高,发展中国家的乳腺癌患病率也已经超过宫颈癌,成为了女性癌症死亡的首位因素,且乳腺癌的发病年龄呈现年轻化趋势。然而随着现代医学的不断发展,乳腺癌的诊治水平有了显著的提高,使乳腺癌的死亡率明显下降,并改善了患者的生活质量。但是,乳腺癌的复发和转移仍然占有相当大的比例,有文献报道,乳腺癌术后复发现象大约占乳腺癌患者中的10%~30%之多,且出现复发的患者的治愈率也会明显降低,严重影响患者的生存率。系统生物学是一个以信息为基础、以整合为灵魂、以干涉为钥匙的对生物体系中所有组成包括基因、蛋白质等的构成进行研究,并探寻其中相互关联的网络关系的新型生物学交叉学科。它的系统性及整体性研究就是该学科的特点。系统生物学方法的研究包含了多种学术理论的支持,其中包括生物信息学研究、计算信息学研究、基因组学研究等。生物信息学作为系统生物学发展基础的重要一部分,是一门以研究生物信息的采集、储存、处理、传播为基础的交叉学科。其总和了生命科学、信息学、统计学及计算机科学等多种技术手段,包含了海量的数据库,还拥有多种在线分析软件,收集并分析遗传相关数据,探索生物学的奥秘。并对人类的基因及疾病发生相关的基因进行数据挖掘、统计分析、功能注释、通路分析及网络可视化分析,从而对疾病尤其是恶性肿瘤的发生发展有了更深一步的认识。本研究课题通过以Pubmed/Medline数据库、Web of Science数据库、CNKI(中国知网)数据库及万方数据库4个数据库的文献挖掘为研究基础,总结出与乳腺癌复发相关的基因,通过文献计量学及系统生物学的方法对当今研究现状做出总结,并研究分析乳腺癌复发相关基因及mi RNA(micro RNA,内源性非编码微小RNA)之间的相互作用关系,构建ce RNAs(compting endogenous RNAs,竞争性内源RNAs)网络调控图,从而进一步了解乳腺癌复发相关基因的功能及作用通路,为探究乳腺癌复发的发生及发展的分子作用机制提供更全面的信息和理论基础,更为能够进一步预防和治疗乳腺癌的复发提供新的研究方向。第一部分:乳腺癌复发相关基因的筛选及生物信息学分析背景与目的乳腺癌是我国最常见的女性恶性肿瘤之一,其发病率仍以每年3%的趋势上升,且发病越来越年轻化。乳腺癌不仅是一个激素依赖性恶性肿瘤,更是一个复杂的多基因性的全身性、终身性疾病,遗传及环境等因素都参与了乳腺癌的发生和发展,而乳腺癌的复发更让我们认识到这个疾病有着同其他恶性肿瘤一样的侵袭性和危险性,它会大大降低乳腺癌患者的生存时间,严重威胁着广大女性患者的生命。基因组学的发展让我们越来越多的了解和认识肿瘤相关基因的功能及肿瘤细胞信号通路的作用。本研究的目的:通过对乳腺癌复发相关基因的生物信息学分析,了解与乳腺癌复发相关的基因的功能、信号通路及其表达蛋白质之间的相互作用的网络构成,为探索乳腺癌复发的分子机制提供理论基础。研究方法检索2001.01-2015.01期间发表的所有关于乳腺癌复发相关基因的中英文文章,通过纳入以人类为限定物种且能够提供乳腺癌复发相关基因足够信息的相关的研究文献,排除综述类及重复文献等不相符文献,筛选出有效文献并提取所需要的数据,应用Note Express文献检索与管理软件及Excel 2010软件进行纳入文献的管理及文献计量学分析,并汇总与乳腺癌复发相关的基因。运用基因注释工具GATHER(Gene annotation tool to help explain relationships)在线软件(http://gather.genome.duke.edu/)对乳腺癌复发相关基因进行GO(Gene Ontology,基因本体)功能分析。应用图形化网络显示及分析编辑免费开源软件Cytoscape中的一个插件JEPETTO(Java Enrichment of Pathways Extended To Topology)(Version 1.3.1)进行KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书数据库)通路分析。采用STRING(Search Tool for the Retrieval of Interacting Genes/Proteins)在线软件(http://string.embl.del/)绘制相关基因表达蛋白质的互作网络图,并应用Cytoscape软件计算网络及各节点的拓扑特性筛选出关键基因。结果1.本研究共纳入了196篇中英文文献,经分析得出,在近14年里对于乳腺癌复发的相关基因的研究论文数量处于显著上升的趋势,并总结出59个相关基因。2.GO分析发现乳腺癌复发相关基因及其产物的功能主要集中在细胞周期的调控、胶原蛋白的分解代谢、细胞的增殖及细胞生理过程的负调控等。3.KEGG通路分析发现乳腺癌复发相关基因在信号通路中主要参与了肿瘤信号通路、P53信号通路、Erb B信号通路、VEGF信号通路等。4.经STING软件筛选出59个相关基因中7个基因表达蛋白未参与网络构建,52个相关基因表达蛋白存在相互作用,成功构建了相关基因表达蛋白互作图。5.应用Cytoscape软件共筛选出7个关键基因,分别为,是TP53(肿瘤蛋白p53)、VEGFA(血管内皮生长因子A)、ESR1(雌激素受体1)、ERBB2(人表皮生长因子受体2)、CDH1(上皮-钙黏连蛋白)、PTEN(磷酸酶-张力蛋白抑癌基因)及MMP2(基质金属蛋白酶)。结论1.成功筛选出乳腺癌复发相关的59个基因,并对其进行GO功能注释及KEGG通路分析,为乳腺癌复发的分子机制提供理论基础2.成功构建乳腺癌复发相关基因的网络构建图,并筛选出7个关键基因,提示TP53基因乳腺癌的复发过程密切相关,有利于研究相关基因的相互作用及密切关系,为乳腺癌复发的预防、诊断及治疗提供了研究方向。第二部分:乳腺癌复发相关mi RNA的筛选及ce RNAs调控网络构建背景与目的非编码RNA(non-coding RNA,nc RNA),是一类除m RNA、t RNA和r RNA以外的,不编码蛋白质却发挥功能的RNA分子,它包含微小RNA(micro RNA,mi RNA)和长链非编码RNA(long non-coding RNA,lnc RNA)。micro RNA是内源性非编码微小RNA的总称,它可以通过与靶基因的结合从而引导沉默复合体降解m RNA或者阻碍其翻译,抑制其转录后的基因表达作用。ce RNA(compting endogenous RNA,竞争性内源RNA)假说揭示了RNA之间相互作用的新机制。lnc RNA是ce RNA的其中一种,在细胞周期调控、分化调控、表观遗传学调控中发挥着重要的作用。系统生物学作为一门信息科学,整合了基因组学及转录组学等信息,系统分析其中的关联性及网络构造,构建ce RNAs网络调控图,对于生命的整个过程如细胞的生长、增殖及凋亡等,以及肿瘤的发生发展过程中,都起到了越来越重要的作用。本研究目的:通过实验验证的数据库及靶基因预测数据库中筛选出乳腺癌复发相关的mi RNA-靶基因,mi RNA-lnc RNA匹配对数,运用生物信息学分析,构建相关ce RNAs网络调控图,了解其中的相互作用,筛选出与乳腺癌复发相关的重要mi RNA。研究方法选用POMA算法,利用3个实验验证的数据库:mi Records(http://mirecords.biolead.org/)、Tar Base(http://diana.cslab.ece.ntua.gr/tarbase/)、mi RTar Base(http://mirtarbase.mbc.nctu.edu.tw/)及2个靶基因预测数据库:star Base(http://www.targetscan.org/)和mi RDB(http://www.microrna.org/microrna/home.do),采用Z=α/β公式(α代表仅受该mi RNA调控的靶基因的个数。β代表受该mi RNA调控的所有靶基因的个数)。以Z值>0.1为阈值,共同筛选出Z值>0.1的mi RNA定为有意义的乳腺癌复发相关的mi RNA,并找出mi RNA-靶基因匹配对数。应用star Base v2.0数据库预测mi RNA-lnc RNA的相互关联,找出相互作用的匹配对数。通过Cytoscape3.2.1软件构建乳腺癌复发相关ce RNA网络调控图筛选相关重要mi RNA。结果1.本研究通过运用POMA筛选预测模型,在3个提供实验验证的数据库和2个靶基因预测数据库的基础上,筛选出乳腺癌复发相关mi RNA共104个。通过Z公式评分后,大于阈值的mi RNA共12个,分别为:mi R-204、mi R-29c、mi R-29b、mi R-146a、mi R-9、mi R-491、mi R-222、mi R-27b、mi R-324-5p、mi R-124、mi R-141及mi R-122。并找出16对mi RNA-靶基因对应关系。2.通过star Base数据库中内置的Lnc RNABase预测mi RNA-lnc RNA的相互关联,检索发现乳腺癌复发相关的lnc RNA共12个,分别为:NEAT1(核副斑点包装转录本1)、MALAT1(肺腺癌转移相关转录本1)、XIST(X染色体失活特异转录本)、HCG18(人类主要组织相容性复合体组18)、KCNQ1OT1(KCNQ1相反链/反义转录物1)、SNHG7(小核仁RNA宿主基因7)、HOTAIR(HOX反转录RNA)、TUG1(上调牛磺酸1)、GAS5(生长阻滞特异转录本5)、HCP5(人类主要组织相容性复合体p5)、H19(母系印迹表达转录本)、MIAT(心肌梗死相关转录本)。并得到40对mi RNA-lnc RNA对应关系。3.通过应用Cytoscape软件,成功将56对调控关系导入并构建了ce RNAs网络调控图,筛选出4个与乳腺癌复发相关重要mi RNA,分别为:mi R-204、mi R-29c、mi R-29b及mi R-146a。结论成功构建出了与乳腺癌复发相关的ce RNAs网络调控图,并筛选出4个与乳腺癌复发相关的重要mi RNA。