论文部分内容阅读
随着人类基因组计划的完成以及所测的模式生物完整基因组的快速增长,急需对所测得的序列和结构数据进行分析,而且需要有更好、更有效的分析算法。计算机基因识别方法对于识别那些通常在传统序列数据库搜索技术中不能发现的生物特征是一个非常重要的工具。其中,正确地识别剪接位点对真核生物基因结构的预测具有非常重要的作用,也是基因识别的关键步骤。近年来,越来越多的研究表明选择性剪接对基因表达和调控以及许多人类疾病都有非常重要的意义。由于选择性剪接在细胞发育和分化的基因调控中起重要作用,因此掌握选择性剪接规律,预测选择性剪接形式及其发生的空间和时间对揭示真核基因的表达调控机理、药理学研究和分子生物学研究具有非常重要的意义。因此对选择性剪接位点的识别就显得非常重要,并且也越来越受关注。
本文提出了一种基于离散小波变换和支持向量机的剪接位点识别和选择性剪接位点识别的方法,该方法取得了较好的识别效果。对于剪接位点识别,其识别率分别为94.7%(供体位点)和91.5%(受体位点);对于选择性剪接位点,其识别率分别为66.6%(供体位点)和59.9%(受体位点);识别结果优于或近似于现有方法的识别率,然而这种方法却非常简单、方便。与此同时,论文对待识别的序列还提出了一种新的编码方法——类图像编码方法,此编码方法可以把DNA序列分析问题转化为图像处理问题来处理。论文最后讨论了影响该识别方法性能的一些影响因素,并进行了详细的比较分析,能为选择性剪接位点识别研究工作提供一种新的思路。