论文部分内容阅读
[目的]本研究旨在利用Oxford Nanopore测序技术组装和注释东方蜜蜂微孢子虫Nosema ceranae的高质量全长转录组.[方法]采用Nanopore PromethION系统对东方蜜蜂微孢子虫的纯净孢子进行转录组测序.通过识别每条clean read两端引物鉴定全长转录本序列.利用Blast工具将全长转录本比对Nr,Swiss-Prot,KOG,eggNOG,Pfam,GO和KEGG数据库,获得相应注释信息.分别利用蛋白结构域分析方法CPC,CNCI,CPAT和Pfam对长链非编码RNA(long noncoding RNA,lncRNA)进行预测,获得高可信度lncRNA.利用CPM(counts per million)法计算每一条全长转录本的表达量.[结果]利用Nanopore PromethION系统对东方蜜蜂微孢子虫转录组测序共测得6 988 795条raw reads,经质控获得6 953 469条clean reads,其中包含5 143 999条全长转录本.共鉴定到10 243条非冗余全长转录本,N50和平均读长分别为1 042 bp和894 bp,最大读长为4 855 bp.有9 342,4 038,4 283,2 569,4 859和3 450条全长转录本分别注释到Nr,KOG,eggNOG,Pfam,GO和KEGG数据库.注释到东方蜜蜂微孢子虫、蜜蜂微孢子虫Nosema apis和家蚕微孢子虫Nosema bombycis的全长转录本数量最多.共鉴定到87条高可信度lncRNA,包含49条正义链lncRNA(sense lncRNA)、25条反义链lncRNA(anti-sense lncRNA)和13条基因间区lncRNA.本研究的测序量足以检测到全部表达的全长转录本,全长转录本的表达量(CPM)范围在0.1到10 000以上.[结论]本研究构建和注释了东方蜜蜂微孢子虫的高质量全长转录组数据,可为病原的比较转录组分析、转录本的可变剪接和可变腺苷酸化分析、简单重复序列(simple sequence repeat,SSR)位点挖掘、基因结构优化以及基因全长序列克隆及功能研究提供关键基础.