论文部分内容阅读
研究目的:肝脏在人体生命活动中具有重要的生理功能,而4-6月孕龄人胎肝还是造血、免疫系统干/祖细胞的主要来源,并表达大量与细胞植入、定居、转移相关的基因。本文研究目的是借助生物信息学的工具,通过分析本室测定的人胎肝EST数据及来自公共数据库中的芯片数据,以了解人胎肝转录组特点,并通过分析为蛋白质组研究及基因功能研究打下良好的基础。 另外由于SARS爆发,为了解SARS-CoV所表达的蛋白质种类及它们的功能,促进蛋白质组鉴定工作,又开展了另一部分研究:即对SARS-CoV(BJ-01)进行基因预测,并推测所得蛋白质功能。 研究内容:首先通过EST预处理,获得人胎肝EST有效序列;其次对EST进行正确的聚类,得到EST丰度信息,并对EST进行鉴定;第三,对已知基因进行GO分类和KEGG分类,克服基因功能人为分类缺点,建立标准化的人胎肝表达谱:第四,通过对人胎肝已知基因数据与芯片数据进行比较,获得人胎肝的特点,并分析相关组织之间的关系:第五,对人胎肝功能未知EST进行电子拼接、验证,获得全长cDNA或完整ORF;第六,对未知基因进行功能推测,为基因功能研究打下基础;第七,建立人胎肝转录组数据库及蛋白质组质谱肽段鉴定体系;第八,对SARS-CoA(BJ01)进行基因预测及功能推测。 研究方法:第一,对人胎肝EST进行预处理,排除重复测序序列、外来序列、长度小于100bp的序列,确保后续分析序列为有效序列,并通过VecScreen程序去除载体序列,通过本地化repeat_masker程序去除重复序列:第二,比对NT数据库,根据分值不小于200并按照功能已知与否把EST分为功能已知和功能未知两类:第三,利用Blast比对UniGene数据库、DoTs数据库、MGC数据库和Twinscan所预测的人转录组数据库,获得较准确的EST丰度信息;第四,通过DAVID软件对功能已知基因进行GO分类,同时进行KEGG分类;第五,从芯片数据中选择相关的五种组织,通过DAVID对它们进行分析,获得人胎肝转录组特点,并通过层次聚类对五种组织的关系进行分析:第六,通过Phrap软件对未知EST进行电子拼接,并比对原始EST及四个转录组数据库进行验证,同时用ATGpr软件检验完整性和检出ORF,建立相应的蛋白质数据库;第七,对所获得的功能未知基因进行Prosite、Pfam、PSORT、SOSUI及电子基因定位等分析;第八,对于SARS-CoV(BJ—01)基因组,首先比较12种基因预测方法,然后选用启发式模型(Heuristic models)、基因鉴定(Gene identification)、