论文部分内容阅读
乳腺癌是女性最常见的恶性肿瘤,严重威胁全球女性健康。据统计,2012年女性新发乳腺癌逾167万例,占所有新发恶性肿瘤的25.1%;由乳腺癌导致的死亡逾52万例,占所有恶性肿瘤引起死亡的14.7%。在我国,乳腺癌发病率以每年3-5%的速度递增,并且发病年龄呈现年轻化趋势。乳腺癌的发病机制较为复杂,目前普遍认为是遗传与环境共同作用的结果。相同的环境危险因素暴露下仅部分个体最终发生乳腺癌,提示遗传背景差异可能导致不同个体乳腺癌易感性不同。因此,鉴定遗传标志物以筛选具有遗传易感性的乳腺癌高危人群,进而采取针对性的预防措施,对降低乳腺癌发病率和死亡率具有重要意义。新近研究已证实长链非编码RNA(long noncoding RNA,lncRNA)的异常表达参与多种肿瘤的发生发展,特定lncRNA可能作为肿瘤诊断的标志物和潜在的药物靶点。LncRNA主要是通过与目标基因或特定蛋白的结合来发挥调控功能,基因组上lncRNA序列遗传变异可能改变lncRNA自身的表达水平或影响其与目标序列/蛋白的结合,继而影响肿瘤的发生发展。因此,本课题拟首先对乳腺癌癌和癌旁组织RNA进行全转录组测序(RNA sequencing,RNA-seq)以系统筛选异常表达的lncRNA,进而分析lncRNA上遗传变异与乳腺癌易感性的关联。本课题研究设计包含两部分内容:(1)测序筛选阶段,采用illumina公司二代测序平台Hiseq 1500,针对5例乳腺癌新发患者的癌和癌旁组织RNA进行转录组测序。应用FastQC软件对测序数据进行质量控制,利用Bowtie/Tophat软件对序列进行拼接,通过Tophat(v2.0.9)软件将所得序列定位于人类基因组数据库(hg19)上,注释之后挑选出转录本长度大于200bp以上非编码RNA,再通过Cufflinks(v2.2.1)评价表达水平。应用R软件DESeq2包进行差异表达分析,筛选显著差异表达的lncRNA。(2)关联研究阶段,采用病例对照研究,纳入1486例医院来源的新发乳腺癌患者,1519健康对照来自参加江苏省城乡慢性非传染性疾病调查的人群,按年龄和居住地区(城乡比例)等分布特征与病例频数匹配。通过RegulomDB进行生物信息学预测,筛选lncRNA区域及其上下游2kb范围内所有功能性遗传变异,纳入标准:RegulomeDB评分1-3;中国汉族人群中最小等位基因频率(MAF)≥0.05;排除在中国人群中高连锁不平衡(LD)的遗传变异(r2>0.8,优先纳入评分高的位点,如果评分一致,随机选取)。利用Sequenom公司的MassARRAY分子量阵列技术平台对上述功能性遗传变异进行基因分型。应用Logistic回归模型在各遗传模型下计算遗传变异的关联P值、比值比(odds ratio,OR)及其95%可信区间(confidence interval,CI)。测序筛选阶段共发现11个差异表达lncRNA位于常染色体区域、错误发现率(False discovery rate,FDR)校正P值≤ 0.05且对数转换的表达差值(log2fold change)≥ 2。关联研究阶段纳入27个潜在功能性遗传变异,去除4个引物设计失败和3个基因分型率低于95%,最终获得20个位点的分型结果。Logistic回归分析发现,位于lncRNAAC104135.3上遗传变异rs11471161的TT等位基因与降低的乳腺癌风险显著相关(相加模型:OR=0.86,95%CI=0.78-0.96,P=7 × 10-3);而位于lncRNA RP1-1060J15.4上遗传变异 rs3751232 的 A 等位基因与升高的乳腺癌风险显著相关(相加模型:OR= 1.26,95%CI= 1.10-1.45,P=1× 10-3);在校正了年龄、初潮年龄和绝经状态之后,rs11471161和rs3751232仍然与乳腺癌风险相关(rs1 1471161,OR = 0.84,95%CI = 0.74-0.94,P=4 ×10-3;rs3751232,OR =1.20,95%CI= 1.02-1.40,P= 2.7 ×10-2)。分层分析结果发现,rs1 1471161在较低初潮年龄、较低首胎活产年龄、绝经前和TNM中晚期乳腺癌患者中与降低的乳腺癌风险显著相关(P值分别为0.012,0.023,0.042和0.026),且rs11471161只在雌激素受体(ER)阳性、孕激素受体(PR)阳性和人类表皮生长因子受体2(HER2)阴性的肿瘤亚组中表现为保护的效应(P值分别为0.006,0.018和0.008);rs3751232则与ER+和PR+肿瘤亚组显著增加的乳腺癌风险有关(P值分别为0.004和0.036)。但是遗传变异与乳腺癌的关联在不同的亚组间皆不存在异质性(异质性检验P>0.05)。此外,共表达分析发现AC104135.3与乳腺癌相关的基因ERBB2有显著的共表达相关(r = 0.99,FDR 校正P=0.0149)。本课题通过转录组测序技术建立乳腺癌lncRNA表达谱,并发现差异表达lncRNA AC10135.3和RP11-1060J15.4 相关遗传变异 rs11471161 和 rs3751232与乳腺癌易感性显著关联。研究结果为乳腺癌高危人群的筛查提供了理论依据和技术指标。