基于信号处理技术的生物序列相似性分析与基因识别

来源 :重庆大学 | 被引量 : 0次 | 上传用户:MENTAL2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门新兴的交叉学科。它是以计算机和网络为工具,采用数学和信息科学等理论和方法研究核酸、蛋白质等生物大分子。生物信息学的研究能够帮助我们进一步探索生物进化和生命本质等重大问题。同时,生命中蕴藏的巨大信息也将进一步促进其他学科的发展。本文旨在探索信号处理技术在生物信息学中的应用。主要研究内容包括生物序列的相似性分析和基因识别。本文的研究成果可概括为:①鉴于RNA二级结构的结构特征主要体现在碱基对中,本文以碱基对为出发点,提取出RNA二级结构序列所对应的基序列,并借鉴信号处理技术中的正交投影和小波变换的思想在所得的基序列上设计碱基对变换,进而构建序列间的相似性函数。该函数结合了序列间碱基对变换后结果之间的差值及其对应的位置差值,因此能够全面地比较序列间的差异,从而实现RNA二级结构的相似性分析。基于碱基对变换的相似性分析方法的时间复杂度较小。除此之外,该方法获得的相似性分析结果之间的差异较大,有利于进一步实现所得结果的聚类分析。②基于信息论中的汉明距离,本文提出了一种具有普适性的双边相似性函数,使之能够适应DNA序列、RNA二级结构序列和蛋白质序列的相似性分析。该方法不需要对生物序列进行数值映射,能够较好地提取生物序列中的信息,以较低的时间复杂度统一地实现三种生物序列的相似性分析,证明了双边相似性函数的有效性和普适性。尤其对RNA二级结构序列的相似性分析,不考虑结构信息和考虑结构信息的分析结果近似一致。这样就简化了RNA二级结构序列的相似性分析过程。③基于符号动力学原理,本文提出了一种新的DNA序列表示方法。该表示方法不仅具有良好的数值特征,能够挖掘DNA序列中的混沌特征,而且还能够实现序列的可视化表示。新表示方法的可视化特征能够实现DNA序列的图形比对和密码子比对。基于密码子比对的结果,构建序列间的相似百分比有效地实现了DNA序列的相似性分析。基于几何中心构成的特征向量,新表示方法同样能够有效地实现DNA序列的相似性分析,表明符号动力学原理能够有效地应用在DNA序列的分析中。④结合RNA二级结构序列与DNA序列的不同点,改进DNA序列的符号动力学表示方法使之适合RNA二级结构序列。其出发点是RNA二级结构的结构稳定性主要是由碱基对的自由能决定。重点讨论了改进后的RNA二级结构序列表示方法中的截取长度对序列相似性分析结果的影响。在时域中,结合矩阵不变量,利用改进后的表示方法定量地实现了RNA二级结构序列的相似性分析。为了进一步验证改进后的表示方法的有效性,对表示结果进行离散傅里叶变换,从频域定性地分析了RNA二级结构序列的相似性。实验结果表明符号动力学原理同样能够有效地应用在RNA二级结构序列的相似性分析中。⑤结合DNA序列的符号动力学表示方法和Z曲线表示方法,本文利用基因编码区的周期-3特性设计了一种基于扩展卡尔曼滤波器的基因识别模型。该方法能够利用扩展卡尔曼滤波器的预测能力,有效地识别基因的外显子位置。同时,为了降低识别结果中的背景噪声,对识别结果采用加窗处理的方法,进一步提高了基因编码区和非编码区的识别效果。
其他文献
2018年水产饲料行业在中美贸易摩擦、环保风暴和鱼价低迷的打击下,一路艰难前行。但前行中不乏亮点,如华中草鱼膨化料破而后立、华南保健功能料方兴未艾;艰难中企业也主动应
对埋地燃气管道周边土壤的基本理化数据进行了因子分析,将9个检测变量归纳为4个公共因子。研究结果表明,土壤各方面的性质对于土壤腐蚀的重要程度不同。在进行多因素评价时,应选
智能天线是现代信号处理的一个重要研究领域,它在雷达、通信、声纳、地质勘探、射电天文以及生物医学工程等众多领域有着广泛应用。文中介绍了智能天线的基本理论和模型,讨论
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
以湖南传统手工技艺食品为研究对象,梳理其品牌建设与产业发展现状,通过对品牌形象的塑造、品牌营销模式论述,提出了湖南传统手工技艺食品品牌建设与产业开发的策略。 Takin
阿魏酸钠对脑梗死引起的缺血、缺氧有保护作用,能改善脑组织代谢,用于治疗脑梗死。作者未见国内、外报道。我院从2004年7月至2005年10月试用阿魏酸钠治疗进展性脑梗死64例,取得
无论是休闲娱乐,还是旅行途中,一款好的音箱,都能给生活带来更多的乐趣。我们此次要体验的就是JBL公司旗下的Clip 2便携式蓝牙音箱,据说这款音箱一改之前“不防水”、“挂钩太小
循环经济是经济发展的理想模式,对促进经济社会又好又快发展意义重大,但现阶段我国发展循环经济还存在着技术、观念、法律等方面的难点。因此,针对我国循环经济发展存在的上述难
伪随机序列在测量测距、扩频通信、多址通信、软件测试、雷达导航和密码学等领域都有广泛的应用。论文研究了几类广义分圆序列和一类低相关区序列集的构造,并深入分析了它们
处理器的运算速度突飞猛进,使数据处理能力迅速提高;存储器的容量快速增长,使海量存储得以实现;网络带宽一再提升,使数据传输已变得随处可达。但是人们却发现,与这些技术的发