论文部分内容阅读
背景与目的:乳腺癌(Breast Cancer,BC)是女性最常见的一种恶性肿瘤,.其发病率占女性全部恶性肿瘤第一位,且逐年上升,并呈年轻化趋势,其中乳腺浸润性癌(Breast Invasive Carcinoma,BRCA)占乳腺癌的80%左右。对乳腺癌患者5年无病生存率研究结果显示,Ⅰ期生存率为90%;Ⅱ期生存率为70-80%;Ⅲ期生存率达到60-70%;Ⅳ期生存率只有30%。在接受系统性治疗后,大约有40%的乳腺癌患者仍会出现复发转移,并且大部分患者发生死亡。因此,积极研究乳腺癌的发病机制及预后因素,寻找乳腺癌诊断、治疗、预后的潜在新的靶点成为亟待解决的问题。本研究通过对TCGA中mRNA与乳腺癌的临床相关性的数据通过人工神经网络建立模型,分析其mRNA表达与生存期的关系,为进一步研究乳腺癌发生发展机制提供依据,同时也可以为后续mRNA研究提供分子生物学基础。人工神经网络(Artificial neural network,ANN)是一种人工智能模型,通过模拟人脑神经元的工作过程对信息进行整合和处理,建立一种简单的模型,每更改一种连接方式就可以产生不同的网络,该模型可以较好的预测一些非线性、非平稳、复杂的问题。多层感知器(multi-layer perceptron MLP)是较为常用的一种简单的前馈网络,类似于单个生物神经元。人工神经网络是生物信息学领域发展潜力很大、应用前景很广的工具,目前已经成功应用在医学、生物、经济等领域。据统计,近几年PubMed中关于人工神经网络的生物信息学论文的数量不断上升。癌症基因组图谱(The Cancer Genome Atlas,TCGA)计划是由美国政府发起的、由美国国家癌症研究所(National Cancer Institute,NCI)和国家人类基因组研究所(National Human Genome Research Institute,NHGRI)共同实施的,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析。TCGA以人类基因组计划(Human Genome Project,HGP)的成果为基础,研究癌症基因组的变化,相当于100多个HGP,是目前为止世界上进行的最大的一项基因工程。TCGA数据库可以为全世界的科研工作者提供免费的公共数据资源,其中基因组数据共享平台(Genomic DataCommons Data Portal,GDC)作为 TCGA 强大的数据驱动平台,可以链接到外部的分析工具,如cBioPortal网站、Firehose网站、Firebrowse网站,本研究也用到了这三个分析工具。迄今为止,TCGA数据库提供了 30多种不同肿瘤的基因组、转录组、蛋白组、表观遗传组数据和与其关联的临床数据。TCGA项目于2012年就已经分析了 825例浸润性乳腺癌(Breast Invasive Carcinoma,BRCA)的mRNA表达。本研究通过分析TCGA中浸润性乳腺癌的部分临床数据和mRNA表达数据,并应用ANN模型研究mRNA与浸润性乳腺癌预后的关系。数据与方法:在TCGA 平台下载浸润性乳腺癌的临床数据,通过log-rank检验、描述性统计分析及二元回归分析的统计学方法对临床数据及mRNA表达数据进行分析。当p<0.05时,考虑检验结果有统计学意义。在TCGA平台下载与浸润性乳腺癌相关的mRNA表达数据,根据p<0.05和Q<0.3,并利用GDC分析工具筛选出与浸润性乳腺癌生存期相关的mRNA共69个,选择log-rank检验p值最小的前10个mRNA建立预测浸润性乳腺癌预后的人工神经网络模型。以上步骤主要由SPSS 22.0软件包完成。结果:1、浸润性乳腺癌的生存期与ER表达、PR表达、HER2表达、病理分期有关,与年龄和经期状态无关。2.同一 mRNA在不同的病例样本中表达量不同。3.在TCGA平台利用GDC分析工具筛选出69个可能与浸润性乳腺癌预后相关的mRNAs。4.构建mRNA预测浸润性乳腺癌患者预后的人工神经网络模型。结论:1.浸润性乳腺癌患者的临床预后因素包括ER、PR、病理分期,与年龄和经期状态、HER2无关。2.同一 mRNA在不同的病例样本中表达量不同。3.mRNA的表达与乳腺浸润性癌患者预后有关。4.mRNA的人工神经网络可用于预测乳腺癌患者的预后。