论文部分内容阅读
伴随着基因测序的不断深入发展,多种物种的基因序列面纱被人类逐步揭开,了解基因序列结构特征及功能成为人类日益关注的问题,其中较为突出的是基因预测问题。我国从事基因研究工作起步较晚,但一直以来投入的人力、物力相对较多同时也获得了很多引起世界广泛关注的成果。本文主要从现有研究的基础上对碱基3-周期性进行验证,并对基因预测过程中涉及到的阈值问题进行了讨论。 论文第一章介绍了基因预测的研究背景及意义、国内外生物信息学研究进展和基因预测研究存在的问题及发展趋势。第二章分为两个部分,第一部分主要介绍了一些生物基础知识,包括DNA模型构建、基因与DNA序列的关系和生物信息学数据库等;第二部分介绍了数字信号处理技术以及其中的数字映射方法,主要包括离散傅里叶变换和快速傅里叶变换、Voss映射、Z曲线映射以及与复数有关的四元数映射等,数字信号映射方法的选择会影响到最终的预测结果。本文主要内容是第三章和第四章,第三章在已有的外显子具有碱基3-周期性而内含子不具有碱基3-周期性这一结论的基础上,分别通过对家鼠和人类的外显子序列和内含子序列进行功率谱分析验证了上述结论,验证结果显示家鼠和人类的外显子均具有碱基3-周期性,而内含子都不具有碱基3-周期性的特性。由于利用Voss映射进行功率谱分析的信噪比和利用Z曲线映射进行功率谱分析的信噪比具有线性关系,本文数值实验结果同样验证了此结论。第四章主要研究了基因预测中涉及到的阈值问题,阈值是通过傅立叶变换得到的能够对蛋白质编码区和非编码区进行区别的最优信噪比,但生物学家通过对不同物种阈值的研究得出任一物种都使用阈值2作为区分外显子和内含子具有局限性,本文通过对多组家鼠和人类基因序列中的外显子和内含子的信噪比进行求解证实了使用阈值2作为区分外显子和内含子具有局限性的说法,如何确定每种物种的信噪比成为本文下一步将要解决的问题。最后,第五章对本文所作的工作进行了回顾,同时指明了下一步工作的具体方向。