论文部分内容阅读
高质量蛋白质结构及其对应基因序列数据是研究蛋白质折叠与蛋白质编码序列关系问题的基础.通过查询SWISS-PROT数据库中E. coli的蛋白质,得到不同数据库中的蛋白质结构与基因序列的交叉索引表,在此基础上,删除大量冗余及不可靠数据,最后得到一个高精度数据集EcoPDB.该数据集共有191个E. coli基因及其相应的精度好于2.5 ?的X射线衍射测定的PDB蛋白质结构数据,总残基数约5.5万.