【摘 要】
:
随着基因组学和蛋白组学的出现,生物序列的图形表示发展到定量的数值特征,目前已经成为生物信息学的一个重要研究课题。论文给出DNA和蛋白质序列的可视化谱型图表示、数学描述
论文部分内容阅读
随着基因组学和蛋白组学的出现,生物序列的图形表示发展到定量的数值特征,目前已经成为生物信息学的一个重要研究课题。论文给出DNA和蛋白质序列的可视化谱型图表示、数学描述模型,并在相似性分析和进化树的构造等方面进行了研究。(1)依据核苷酸的分类,给出了一种DNA序列的谱型图表示,能反映核苷酸序列的功能和结构信息。然后计算谱型图振幅的频率作为描述子,并给出计算描述子的理论值的数学表达式,运用这些描述子对DNA序列进行相似性比较。11个物种的β-球蛋白基因全编码序列和24个冠状病毒基因组的相似性分析结果展示了方法的有效性。(2)根据氨基酸的亲疏水性模式,提出了一种蛋白质的谱型图表示。并提取振幅的频率作为描述子应用于20个物种的线粒体蛋白质组序列,分析序列的差异性并构建进化树,结果与已知的进化信息一致。该方法适用于长的蛋白质序列,而且运算复杂度较低。此外9个物种的13个蛋白质序列的振幅频率的值以及相关系数矩阵也被获得来比较物种的相似性。(3)基于蛋白质序列的谱型图表示,提取序列特征向量,结合20种氨基酸在序列中的组分构成新的特征向量,由此每条蛋白质序列可以由一个特征向量表示。运用支持向量机作为工具,对三个凋亡蛋白质序列数据集进行分类预测,结果显示该算法具有较高的准确率。本文利用序列的谱型图表示给出生物序列的一种信息描述方法,提出的模型涉及了核苷酸和氨基酸的几种重要理化性质,兼顾了生物序列局部特征与整体特征信息的提取。不仅应用于生物序列的相似性分析,还应用于蛋白质的亚细胞定位预测。
其他文献
本文主要研究指数丢番图方程px±qv=2z的非负整数解的问题,共由三部分组成。第一部分简单地介绍了有关指数丢番图方程的背景知识。第二部分主要做了以下工作:1用初等方法给出
特色小镇作为新型城镇化建设的重要形式,在全国范围内如火如荼地发展起来。特色小镇是以村镇为建制基础,以特色产业为核心的小镇。它一方面可以充分发挥自身优势实现农村就地
本文以Bernstein算子在r-重积分Wiener空间下同时逼近平均误差的强渐近阶结论为基础,利用数值分析的方法,系统讨论了在加权Lp范数下Kantorovitch算子序列在r-重积分Wiener空
近年来有关分数阶微积分的研究引起了人们的广泛关注。目前用得最多的分数阶微积分是基于Gamma函数定义的Riemann-Liouville导数和Riemann-Liouville积分,其次有Caputo导数、
二氧化碳(CO2)是导致温室效应的主要气体之一,同时也是储量丰富的C1资源,通过化学固定CO2制备高附加值化工产品是最具吸引力的碳捕集与利用的策略之一。其中,将CO2化学固定为环碳酸酯是一条最具工业应用前景的转化利用途径。目前,以环氧化物和CO2反应合成环碳酸酯是最常用的制备体系。然而,环氧化物作为原料不仅成本高、毒性大、不易储存,且反应体系对设备要求高,严重制约环碳酸酯的产业规模。烯烃毒性小、价
一维时序信号处理技术凭借其对时间属性的强依赖及有用信息量的庞大承载量在生活及工业界中的应用愈加广泛。例如,音频事件检测及光网络故障预测这两类一维时序信号处理技术分别在多重场景分析、通信信息传播中具有重要的应用价值。深度学习算法在音频事件检测和光网络故障预测中都体现了优于传统算法的性能,因而得到广泛关注。深度学习算法对大量抽象数据的强拟合建模能力得益于深度学习网络模型中庞大的参数量及其复杂的计算迭代
线性k-森林是每一个连通分支均为长度不超过k的路的图.一个图G的线性k-荫度是将图G的边集合能分解成的线性k-森林的最少数目,用lak(G)来表示.图的线性k-荫度是边着色的一种很
种群系统的最优控制问题是一门与生态平衡.生物多样化及可再生资源的开发利用等密切相关的学科.目前大量的学者对具有年龄结构的种群系统的控制问题进行了研究,并取得了许多
随着互联网及知识经济的高速发展,众包由于其开放式的资源聚集和低成本等优点获得了快速发展。但一方面,现有的众包平台均为中心化众包平台,其中心化的架构机制使得众包活动的公平性、隐私性和可靠性很难得到保障。另一方面,任务分配算法是众包的重要研究方向,关系到众包任务能否被按时且高质量地完成。针对以上问题,本文主要的研究成果如下:1)以数据标注类众包为例,基于现有的去中心化应用部署框架Edgence,提出了
冷贮备系统是可靠性研究中一类重要的类型,它的应用十分广泛,结构类型也非常繁多。本文在参考文献的基础上,将修理设备可更换,Poisson冲击,修理工休假,多种失效状态和“修复非新”