基于EST全基因组定位的基因结构注释研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:cx77287728cx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别蛋白编码基因是基因组研究中的重要课题之一。特别是随着越来越多的物种被测序,这一课题更加重要。面对急剧膨胀的基因组序列,传统生物学实验已经无法满足需要。因此,生物信息学的高通量方法显得尤其重要。EST(序列表达标签)是对随机选取的cDNA克隆进行测序的一部分,理论上EST不含内含子,代表了一个完整基因的一部分。EST数据量巨大且还在迅速增长之中,是一种宝贵的序列资源。利用EST对基因组进行蛋白编码基因的预测和注释是重要的研究课题。但EST序列的质量问题和基因组序列的复杂性使得这一工作并不容易开展。本研究首先了解了EST序列的产生过程和序列特点,深入分析了可能影响EST序列质量的因素。包括外源序列、基因组DNA序列、嵌合EST序列,mRNA前体序列、随机引导序列、内部引导序列等等。同时对基因组序列也进行了深入分析,包括重复序列成份、假基因、多拷贝基因、重叠和嵌合基因、选择性剪接等等。在此基础上,本研究考虑了EST与整个基因组进行序列比对和定位可能产生的情况,针对这些情况制订了对策和研究方案,具体是:先对EST去除外源污染,然后将其定位到基因组上,并对比对结果采取针对性的措施加以检验;对保留下来的EST,根据相互之间的联系进行聚类,最后预测出基因结构,并利用有向无环图(Directed Acyclic Graph)和期望最大值算法(Expectation-Maximization)得到可能的选择性剪接。本研究取得了令人满意的结果,测试表明,研究中制订的措施是有效的。本研究还设计了一个覆盖整个基因组的基因注释系统,建立了一个包含有约6000万条目的数据库,支撑相关的web服务(http://bioinfo.hust.edu.cn)。
其他文献
向CoSi2膜中分别注入As+和BF2+杂质,以这种掺杂硅化物作为扩散源,用快速热处理使注入杂质再分布至CoSi2下面的硅衬底中,能制作出结深为0.12μm的硅化物化N+-P和 P+-N浅结.本
用网目为0.500和0.776mm的筛绢分别制成长度为1.5、2.0和2.5m的弶网、圆锥网和纺锤形网,采用网箱式、滤过式集苗桶和非滤过式集苗桶3种集苗器,于1998年5-6月在长江九江江段进
神经症是一种很常见的心理疾病。《中国精神疾病分类与诊断标准》第3版把神经症分为:神经衰弱、焦虑性神经症、强迫性神经症、恐惧性神经症、疑病性神经症、抑郁性神经症、癔
目的评价抗生素联合肝素封管对中心静脉留置导管相关感染的预防作用,并探讨不同类抗生素在血液透析患者留置导管封管的效果。方法选择178例中心静脉留置导管的血液透析患者,
新莽时期,对地方行政区划的名称多有改造,史称“郡县以亭为名者三百六十,以应符命文也。”这些改署“亭”称的县名与所属郡名有一定的关联,但这种关联仅在局部有效的特点也令学界
据报道,新西兰“支持烧烫伤者团体”总裁布赖恩·米切尔近日在新西兰大力推广治疗烧烫伤的中药软膏。米切尔在 According to reports, Brian Mitchell, president of New Z
输入的重要性不言而喻,没有输入就谈不上语言习得。然而,由于输入具有多样性,采用什么方法输入就至关重要了。输入强化是指有意凸显第二语言某些形式特征,以引起学习者对这些
目的研究瑞舒伐他汀钙对小鼠动脉粥样硬化血清抵抗素的影响。方法将高脂喂养的雄性apoE-/-小鼠24只,随机分为模型组(n=12)、瑞舒伐他汀钙组(n=12,加用瑞舒伐他汀10mg.kg-1.d-
作业是教育教学的一个非常重要的组成部分。教师可以通过学生做作业的情况对学生做出诊断。而只有当学生是亲自通过自身努力完成的作业对于教师才是有作用的。教师只有通过这