论文部分内容阅读
现代生物学的发展促进了生物信息学的产生。生物信息学是将信息学的理论技术应用于生物数据的管理和分析,是数学、物理学、计算机科学、化学、生命科学等多学科的交叉学科。生物信息学研究的范围十分广泛,其中数据库的构建就是一个重要方面。如何用理论和计算的方法识别和预测内含子和外显子也是目前生物信息学研究工作的重要任务。本课题通过自编程序建立了以中国马品种资源为主的中国马业综合数据库www.chinahorse.org.cn。并在建立数据库的基础上,初步实现了数据库应用,包括基于Web的文献数据库的网络化查询等。它将为建立马品种资源的科学研究平台打下基础。本研究的主要内容及结果如下:1.建立了专一化、系统化、完整化的马业科学数据库。序列数据库中以基因数据库和蛋白质数据库为主,非序列数据库以文献数据库和图片数据库为主。其中,马的基因数据库中的记录量超过了2万,马的蛋白质数据库的记录超过3万。2.建立了中国马物种资源数据库。涉及品种的外貌、类型、典型特征等多个性状,为从事中国物种品种遗传资源的利用与保护提供了参考。3.建立了马生物信息学研究平台。可以对基因和蛋白质进行相关生物信息学研究,对于进行科研和教学具有一定价值。4.建立了马业科学实验室网站与马业论坛。可以通过互联网进行数据库的检索,提高了数据库的应用效率。网站的建设还可以为数据库的更新带来方便,也为本研究领域内的交流与合作起到桥梁作用。本研究还通过对已发表的马全基因组序列的密码子使用频率做了初步的统计分析工作并对内含子和外显子进行了预测。基于各种序列组分的不同和序列首尾段的保守性,本研究利用离散增量结合支持向量机的方法对马基因组内含子和外显子序列进行识别。基于单碱基、二联体和三联体使用频率,我们能正确预测91%以上的内含子和外显子。