论文部分内容阅读
美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。然而,由于基因普遍存在的多态性以及不同实验室对于序列测定的质量控制存在差异等原因,已发现RefSeq数据库可能存在部分质量问题。文章基于“中心法则”提出“标准转录数据集”的概念,以人类基因和基因组序列为例,利用BLAT、Sim4和自行设计的Elparser等基因结构解析程序分析了RefSeq人类基因转录数据(2005-4-18)与目前所公布的人类标准基因组(2005-4-20)的对应关系。对于有