论文部分内容阅读
长链非编码RNA(Long noncoding RNA,Lnc RNA)是一类长度大于200碱基,且不具有编码蛋白质能力的RNA。Lnc RNA在真核生物细胞中广泛存在,近年研究表明,Lnc RNA能在细胞中以信号分子、分子诱骗物、蛋白质支架等方式参与细胞调控和细胞通信活动,且Lnc RNA被发现与肺癌、乳腺癌、胃癌等多种疾病息息相关。通过对Lnc RNA进行准确鉴定能够发现Lnc RNA的结构特征和表达差异,为揭示Lnc RNA与疾病之间的相互作用机制提供基础。近年来随着DNA测序技术的不断发展,以Pac Bio公司和Nanopore公司为代表的,具有超长读长的三代测序技术已经被广泛应用。利用长读长的测序技术鉴定转录本,能够避免二代测序短读长所需的复杂的组装步骤,可以直接获得转录本的全长信息。另外,目前全长转录本检测的文库构建方法多采用Oligo(d T)对poly A尾富集。该方法只对总RNA中含有poly A尾的RNA进行了研究,忽略了不含有poly A尾的RNA,特别是其中存在大量的新Lnc RNA等待发掘。本研究以肝癌细胞Hep G2和正常人肝细胞HL7702作为实验样本,通过Oligo(d T)富集poly A尾将样本分为poly A+和poly A-文库,采用Nanopore长读长测序,鉴定得到高可信度的全长转录本。然后利用Lnc RNA筛选方法,筛选得到已知的Lnc RNA和新的Lnc RNA,并对Lnc RNA进行特征分析,结构分析,筛选出名义的表达差异的Lnc RNA,最后对差异结果相关基因进行功能注释,得到poly A+与poly A-文库中Lnc RNA功能的差异,为进一步探究Lnc RNA与肿瘤相关功能机制提供了一定的生物学理论依据。本研究构建的基于长读长测序技术的全长Lnc RNA分析流程也能为鉴定无poly A尾的全长Lnc RNA提供一些方法参考。本课题主要分为以下三个部分:1.提取Hep G2肝癌细胞和HL7702正常肝细胞的RNA,使用Oligo(d T)富集含有poly A尾RNA,将文库分为poly A+和poly A-,poly A+文库按照试剂盒正常建库,poly A-文库去除核糖体后,利用PCR引物逆转录成c DNA进行建库。在Nanopore Min ION测序平台上分别对四个文库进行测序,测序数据通过碱基识别,低质量序列过滤,基因组比对,全长统计后,利用FLAIR工具获得可靠的全长转录本信息,并对四个文库的已知全长转录本比例进行比较,发现poly A+文库具有较高的已知全长转录本比例,poly A-文库中新转录本的占比较高,且有大量序列存在于基因间区。2.利用gffcomare将得到四个文库的转录本进行分类,按照分类结果筛选潜在的非编码RNA。筛选条件主要为:长度大于200碱基,具有较低的编码能力,开放阅读框长度小于300碱基,编码得到的蛋白质与已有的蛋白结构域不同。经过筛选得到的可信度高的Lnc RNA会与Lnc RNA数据库中已知的Lnc RNA进行比较,比对率大于90%的Lnc RNA被标记为已知Lnc RNA,其余为新Lnc RNA。之后对Lnc RNA结构特征进行分析,发现相较于poly A+文库,poly A-文库中的Lnc RNA具有更短序列和相似开放阅读框长度。3.将得到的转录本进行可变剪切分析,大量的可变剪切事件被检测。通过比较Hep G2细胞的poly A+文库和HL7702细胞的poly A+文库,以及Hep G2细胞的poly A-文库和HL7702细胞的poly A-文库之间Lnc RNA表达的差异化后,获取名义的差异表达的Lnc RNA上下游10kb的基因,并进行了功能注释,主要包括GO功能富集注释和KEGG通路分析。通过注释发现,poly A+组中的Lnc RNA富集结果多与细胞通讯以及蛋白质结合相关,而poly A-组中的富集结果多与生物大分子相互作用调控相关。