论文部分内容阅读
研究背景与目的 乳腺癌是全球女性癌症致死的最主要原因。在中国,乳腺癌的发病率以每年3%的速度递增,不仅威胁广大女性的健康和生命,而且也是社会面临的严峻问题。在生物技术快速发展的几十年中,乳腺癌的机制研究仍然进展缓慢。乳腺癌是一种多个分子发生改变的异质性疾病,即使其临床表现相似,但生物学行为及预后差异明显,使得临床结果难以预测,患者对治疗不能完全适应。对于乳腺癌不同组织学分型和危险分层,传统诊断通常是基于肿瘤组织的临床病理学特征。基于基因表达分析,乳腺癌可分为四个主要亚型:腔面型(luminal A and B)、基底样型(basal)、人类表皮生长因子受体2(ERBB2)型和正常乳腺样型(normal-like)。根据这些分类而制定的临床治疗方案,包括内分泌治疗和HER2靶向治疗,能够一定程度上提高乳腺癌患者的存活率。三阴性乳腺癌(triple-negative breast cancer,TNBC)是指雌激素受体(ER)、孕激素受体(PR)、人类表皮生长因子受体2(ERBB2/HER2)均为阴性的一类特殊的乳腺癌。相比其他类型乳腺癌,TNBC侵袭性强、容易复发、预后较差、死亡风险高,是最致命的乳腺癌之一。因为缺乏ER、PR、HER2等受体,所以TNBC患者对内分泌治疗和HER2靶向治疗的效果不理想。目前尚未有针对TNBC的治疗指南,患者通常仍按乳腺癌常规标准进行治疗,而化疗是其主要的全身治疗手段。由于TNBC的高异质性,很难分辨对特定的化学疗法产生反应的患者,而且没有可靠的生物标记物,可以作为筛选标记。因此,迫切需要寻找TNBC的诊断分子标志物和潜在的治疗靶点,以改善患者的预后。随着高通量技术的发展,已经发现一些基因标志可以预测乳腺癌患者的预后。与传统的临床病理学指标相比,这些基因标志物有较高的敏感性和特异性。然而已发现的基因标志物并非适用于所有人群,只有其中少许部分可以预测TNBC患者的预后,如Mammoprint多基因标志物和基因分级指数(genomic grading index,GGI)等。但它们在临床应用上还存在局限性。lncRNA(long non-coding RNA,lncRNA)虽然不编码蛋白质,但其功能与RNA类似。lncRNA的总数约410,000,占全部ncRNA的80%~90%,但目前功能已知的lncRNA还不足1%。许多lncRNA已被证实与各种疾病的发展过程相关,尤其是癌症。lncRNA可以起着促癌或抑癌作用,并且能在表观遗传、转录和转录后水平上调控基因表达。越来越多的研究发现,lncRNA在许多癌症中出现表达失调。在大多数情况下,这些异常表达的lncRNA参与各种恶性生物过程,包括致癌作用、细胞增殖、凋亡、迁移、入侵和自噬等,与癌症发生、发展的关系密切。因此,lncRNA是癌症诊断、治疗、病理分型和风险评估的重要候选生物标志物,可为临床提供可靠的诊断依据和指导个性化治疗方案的制定,并可预测癌症临床结果。同时,随着基因芯片技术(microarray)广泛应用,在线公共数据库的基因芯片表达谱数据与日俱增,为我们利用相关芯片数据进行大样本数据挖掘和分析创造了条件。利用基因芯片技术不仅可以检测lncRNA表达,还可通过重新注释现有的芯片探针,发现新的预后预测相关lncRNA分子标志物。本研究结合GEO公共数据库(Gene Expression Omnibus)下载的TNBC基因芯片表达谱数据和临床资料,利用生物信息学工具,筛选TNBC预后相关的lncRNA,以期构建基于lncRNA分子的预后预测模型,对TNBC患者进行风险评估并预测其预后,从而为TNBC患者的个性化治疗提供参考和依据。研究方法 第一部分 TNBC芯片数据的预处理 从NCBI公共数据库GEO检索并下载TNBC相关的表达谱芯片原始CEL数据文件,登录号分别为GSE58812和GSE12276,并整理相关的临床信息。剔除临床资料缺失的样本后,选取GSE58812芯片数据集中107例和GSE12276芯片数据集中71例TNBC患者样本,共178例合格TNBC患者样本纳入本研究。在R环境下用Bioconductor的affy包读入芯片数据,采用以非编码RNA为中心的CDF文件重新注释芯片探针,提取出长链非编码RNA的探针集。其次采用经验贝叶斯算法(empirical Bayes methods)消除两组芯片数据的批次影响(batch effect),运用RMA(Robust Multichip Average)算法对数据进行背景校正和均一化处理,并输出log2转化值。第二部分TNBC预后相关的长链非编码RNA分子标志物的筛选 178例TNBC患者样本的芯片数据经过预处理后,使用R软件的Sample函数,按7:3比例随机分配为训练集(training set)和测试集(test set)。整理TNBC训练集和测试集的lncRNA表达数据和生存资料数据,并导入PAM(Prediction Analysis of Microarrays)2.23。首先,计算每个lncRNA 的 Cox 生存得分(Cox survival scores)并估测最适得分阈值(best score threshold)。利用在线非编码RNA表达数据库(ncRNA Expression Database),查证筛选得到的lncRNA信息。根据最适得分阈值,构建有监督的主成分预测模型(supervised principal component predictor),应用该模型估测测试集数据的结果,验证该模型的预后评估功能。作出K-M曲线(Kaplan-Meier curves),并输出预测信息结果。第三部分 评估长链非编码RNA分子标志物的预后预测效果 本部分选取GSE58812数据集和GSE12276数据集的TNBC患者样本作为研究对象,并收集所有TNBC患者样本的临床数据。排除预后不明确和患者临床资料信息不全的样本后,共纳入178例TNBC合格样本。分别根据患者年龄、肿瘤大小、组织学分级,将样本分为不同的亚组。利用基于lncRNA建立的预后预测模型,并结合的临床生存资料,使用PAM 2.23预测178例TNBC患者样本的风险得分,并对按肿瘤大小分层的样本作生存分析。以Cox比例风险回归模型对lncRNA预测风险得分、年龄、肿瘤大小、组织学分级等因素与TNBC患者预后关系分别进行单因素、多因素生存分析;应用诊断效能(receriver operating characteristic,ROC)曲线判断 lncRNA 预测风险得分、年龄、肿瘤大小、组织学分级等因素对TNBC患者的诊断评估价值。结果 第一部分 TNBC芯片数据的预处理 通过筛查,去除临床数据缺失的样本,分别从GSE58812、GSE12276中获得107例、71例TNBC患者样本,共178例TNBC患者样本,并提供了随访资料,可纳入后续分析。将纳入分析的178例TNBC患者样本的原始数据重新注释并经过消除批次影响、背景校正、均一化及log2转化等处理后,输出178例TNBC患者样本、共5635个lncRNA的表达值文件。第二部分TNBC预后相关的长链非编码RNA分子标志物的筛选 纳入本研究的178例TNBC患者样本经随机分配为训练集(n=124)和测试集(n=54)。使用PAM 2.23检测训练集(n=124)的预后相关lncRNA,当阈值为7.81时,能有效控制训练误差。筛选Cox生存得分的绝对值>阈值(7.81)的 lncRNA,得到 6 个预后相关 lncRNA,分别是 AK126909、AF086008、AK091525、BC013266、AK023400和BC042889,并查证得到其定位等信息。其中,AK091525的Cox生存得分为正值,说明该lncRNA表达水平较高的TNBC患者,其总生存期较短;而其余 5 个 lncRNA(AK126909、AF086008、BC013266、AK023400和BC042889的Cox生存得分为负值,则说明这些lncRNA表达水平越低,TNBC患者总生存期越长。将筛选得到的6个lncRNA,使用PAM 2.23构建有监督的主成分预测模型。根据该预测模型分别对训练集和测试集进行生存分析。结果显示,按照lncRNA预测风险得分,训练集和测试集的样本均可分为高、低风险两个组。在训练集中,与低风险组患者(n=61)相比,高风险组患者(n=63)的总生存率较低(P<0.001)。同样,在测试集中,高风险组患者(n=27)的总生存率显著低于低风险组患者(n=27)(P<0.001)。第三部分 评估长链非编码RNA分子标志物的预后预测效果 本研究共获得178例TNBC患者临床资料,其中107例TNBC患者样本来自GSE58812数据集,71例TNBC患者样本来自GSE12276数据集,最终178例TNBC患者样本纳入本部分分析。应用Cox比例风险回归模型对lncRNA预测风险得分、年龄、肿瘤大小、组织学分级与预后关系进行单因素和多因素分析,发现lncRNA预测风险得分、肿瘤大小是TNBC患者预后的独立影响因素(P<0.001),而年龄、组织学分级与TNBC患者预后无明显相关性(P>0.05)。根据肿瘤大小,将178例TNBC患者样本分为TI组(直径>2.0 cm)(n=82)和TII组(直径≤2.0 cm)(n=88),其余8例样本因资料不全而剔除,共170例TNBC患者样本纳入分层分析。按肿瘤大小分层后,使用lncRNA预测模型对亚组患者进行生存分析,结果显示,TI组(直径>2.0 cm)和TII组(直径≤2.0 cm)的TNBC患者样本均被分为高风险组和低风险组;而且高风险组患者的总生存率均显著低于低风险组患者(P<0.001)。通过ROC曲线分析发现,lncRNA预测风险得分和肿瘤大小对预后判断为死亡的ROC曲线下面积分别为0.879、0.721,且均有统计学意义(P<0.001):年龄和组织学分级对预后判断为死亡的ROC曲线下面积分别为0.562、0.525,但无统计学意义(P>0.05)。这说明lncRNA预测风险得分的预后判断能力和准确性优于肿瘤大小等其他因素。结论 利用R和PAM等生物信息学工具,筛选出TNBC预后相关的6个lncRNA(AK126909、AF086008、AK091525、BC013266、AK023400 和 BC042889),并构建了基于这6个lncRNA的预后预测模型。该预测模型为训练集和测试集提供了理想的预后判断,在TNBC预后分析中具有一定适用性和预测价值。这6个lncRNA的发现可为TNBC临床个性化治疗提供参考。