论文部分内容阅读
目的:口腔鳞状细胞癌(Oral Squamous Cell Carcinoma,OSCC)是全球常见的恶性肿瘤之一,一经确诊大多为晚期,生存率低,预后差,因此,解析OSCC诊断和预后标志物是有效防控的前提。生物信息学是发现肿瘤标志物的筛选工具,本课题运用生物信息学挖掘OSCC诊断与预后相关分子标志物,探究被发现候选分子AUNIP在OSCC中表达状况及其与患者生存率、相关临床因素之间的关系,评估其作为诊断和生存预测标记物的价值,为OSCC的诊疗提供初步参考。方法:1.差异表达基因(Differentially Expressed Genes,DEGs)分析:(1)在基因表达汇编(Gene Expression Omnibus,GEO)数据库中,选择与OSCC相关且具备较全面样本信息与临床信息的数据集,其中样本信息包含肿瘤组患者和正常对照组的基因表达数据,临床信息包含生存状态和生存时间等数据,整理原始文件和平台文件,用R语言(Language R)分析得到具有统计学意义的OSCC肿瘤组织与正常对照组织的差异表达基因。(2)整理筛选癌症和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)数据库中OSCC的相关文件,使用Perl语言(Language Perl)进行处理和分析,得到口腔部位鳞状细胞癌组与正常对照组患者的相关基因表达信息和生存相关临床信息。对数据进行数据的处理与分析,选择差异表达基因。(3)将GEO数据库和TCGA数据库分析得出的差异表达基因根据表达水平,进行筛选和构建矩阵,并且对该部分差异表达基因进行交集选取。2.生存分析(1)利用Perl语言,我们将TCGA里下载并且整理好的文件进行生存状态和生存时间的数据处理,得到OSCC患者的生存信息。同时,将上述已经得出的基因表达信息按照患者的编号与临床信息进行匹配,随后进行Kaplan-Meier生存分析,并作Log-Rank检验。(2)选择具有患者生存时间和生存状态信息的GEO数据集,整理相关文件,表达信息与患者的临床信息匹配,将上述生存分析具有统计学意义的基因再次进行验证,用Graphpad Prism工具对该部分基因进行Kaplan-Meier生存分析,并作Log-Rank检验。3.单因素和多因素的COX比例风险模型(Cox Proportional-Hazards Model)分析从TCGA数据库中下载完整的OSCC患者临床信息,并将其进行排列和标识。同时,整合上述基因表达信息,使用统计产品与服务解决方案(StatisticalProduct and Service Solutions,SPSS)软件做相关单因素和多因素的COX回归分析,构建比例风险回归模型,选择统计学有意义的变量进行下一步处理。4,目的基因的选取与相关数据分析综合生物信息数据分析结果和当前学术研究前沿,选择理论上与OSCC相关性最佳,可行性最大,前瞻性最优的基因进行深度的数据分析和实验研究。相关实验方法如下:(1)将目的基因带回GEO数据库和TCGA数据库中,使用Graphpad Prism工具进行差异表达分析,观察比较变化趋势和分析结果。(2)使用SPSS工具对目的基因进行单因素COX回归分析,观察与第一部分结果是否一致,并做出受试者工作特征曲线(Receiver Operating Characteristic,ROC),观察曲线下方的面积(Area Underthe Curve,AUC)大小以及是否具有统计学意义。(3)依据目的基因表达水平将TCGA中OSCC相关临床指标进行分组,用Graphpad Sprim工具对其表达水平进行组内对比,检验统计学意义。(4)将目的基因按照表达量的高低对患者进行分组,用SPSS工具比较其与TCGA中OSCC临床因素的相关性,进行卡方检验。(5)蛋白互作网络(Protein-ProteinInteraction,PPI)分析为了研究该基因在口腔鳞状细胞癌中发生的作用和分子机制,我们构建相关蛋白互作网络,并对此进行富集分析,包括Gene Ontology(GO)分析,Kyoto Encyclopedia of Genes and Genomes(KEGG)Pathway 分析和 Disease Ontology(DO)分析,观察这些蛋白可以被注释于哪些生物学功能通路和疾病谱中。(6)整理TCGA中基因表达文件,根据目的基因表达量的高低,选取排名前25%和后25%的患者,以此分为基因高表达的实验组与基因低表达的对照组,用R语言对涉及到的所有基因进行表达差异分析,验证统计学意义,得到差异表达基因,并对它们进行富集分析,方法同上。5.免疫组织化学染色方法检测目的分子表达取132例OSCC患者肿瘤组织及42例正常对照(癌旁)组织石蜡切片,检测目的基因的表达水平,及与患者部分临床指标间的联系。结果:1.通过GEO数据库和TCGA数据库中差异表达基因分析和整合,选择表达变化大于2倍以及具有统计学意义的基因,得到192个OSCC中差异表达的基因。2.在TCGA数据库中进行192个差异表达基因进行Kaplan-Meier生存分析,经Log-Rank检验得到8个统计学差异最为显著的基因,分别是HOXC6,DKK1,CEP55,AUNIP,MCM2,GALNT6,ISOC1,HOPX。其中 HOXC6,DKK1,CEP55,MCM2,HOPX都已被证实在OSCC中参与调控作用。3.将上述8个基因在GEO数据库中再次进行Kaplan-Meier生存分析,并作Log-Rank检验,共有2个具有统计学意义的基因AUNIP和CEP55。4.COX单因素回归分析中,发现患者生存状态、时间与首次治疗效果、是否进行放射性治疗、是否具有淋巴血管浸润及周围神经浸润、病理分期、以及临床分期均具有统计学意义,再加入与OSCC发病相关的常见自变量,如年龄,性别,是否具有饮酒史,人乳头瘤病毒(HumanPapillomavirus,HPV)感染情况,临床分期,临床原发肿瘤范围(Tumor,T)分期,临床淋巴结转移(LymphNode,N)分期,临床远处转移(Metastasis,M)分期等因素进行COX多因素回归分析,得出AUNIP可以作为独立的预后影响因子。5.综合国内外研究情况,我们选择AUNIP作为本实验的研究目的基因,将其表达水平带回GEO数据库和TCGA数据库中做差异表达分析,证明AUNIP在OSCC组织中呈高表达。6.使用SPSS工具进行COX单因素回归分析,证实高表达AUNIP患者的生存率较低,预后较差。7.具有饮酒史,存在HPV感染,临床分期为iii+iv,临床T分期为T3+T4,病理T分期为T3+T4的患者肿瘤组织中AUNIP呈高表达。8.按照目的基因表达量高低分组,对OSCC患者临床指标进行相关性分析得出HVP感染情况,淋巴血管浸润与否,临床分期,临床T分期,病理T分期这五个因素与AUNIP的表达差异具有联系。9.PPI分析得出与AUNIP有关联的蛋白有AURKA、TRIP13、POLQ、KIF2C、MCM10、OIP5、CDCA8、POLE2、EXO1、CDC45,富集到的功能主要有细胞周期、DNA复制、DNA修复等。10.按照AUNIP表达量的前25%和后25%水平对患者进行分组后,所作基因差异表达分析,选择表达变化大于2倍以及具有统计学意义的基因,我们得到3136 个差异表达基因。富集到 Gene Ontology-Biological Process(GO-BP)238 项,Gene Ontology-Cellular Component(GO-CC)62 项,Gene Ontology-Molecular Function(GO-MF)87 项,KEGG pathway 37 项,Disease Ontology(DO)18项,其中与口腔肿瘤相关的项目如:细胞外基质受体相互作用,细胞周期,尼古丁成瘾,上皮细胞分化,口腔疾病和牙齿疾病等。11.免疫组织化学染色结果显示口腔鳞状细胞癌细胞中AUNIP呈高表达,且患者的年龄、性别和病理分级与AUNIP的表达水平具有联系,<60岁、男性、病理分级为非G1的患者肿瘤细胞中AUNIP的表达水平更高。结论:通过生物信息学方法对数据库信息进行处理和分析,得到CEP55,AUNIP 2个差异表达且与OSCC预后相关的基因。其中AUNIP在口腔肿瘤细胞中呈高表达,与OSCC患者的生存情况和相关临床因素相关,临床OSCC患者标本显示AUNIP较癌旁正常组织表达增高。上述研究提示AUNIP有可能作为OSCC独立的诊断和生存预测标记物。