【摘 要】
:
随着高通量测序技术快速发展,人们获得了大量的DNA序列数据。然而采用生物实验分析这些序列比较耗时耗力,这些序列的结构和功能数据增长缓慢,因此急需新的方法处理这些数据。
论文部分内容阅读
随着高通量测序技术快速发展,人们获得了大量的DNA序列数据。然而采用生物实验分析这些序列比较耗时耗力,这些序列的结构和功能数据增长缓慢,因此急需新的方法处理这些数据。本文基于DNA的序列信息(碱基组成信息、理化属性信息和碱基位置信息),结合机器学习方法对参与基因表达的三种DNA调控元件(DNase I超敏感位点、增强子和启动子)和影响DNA复制的重组热点进行研究。DNase I超敏感位点是染色质上容易被DNA酶I降解的区域,它与很多基因调控元件有关。现有方法采用单一特征识别DNase I超敏感位点,限制了预测效果。针对这一问题,本文采用三种不同的特征提取方法(k元核苷酸组成、反向互补k元核苷酸组成和伪二元核苷酸组成)提取多种序列信息,结合随机森林构建基分类器,同时采用加权求和投票表决的集成学习策略,进一步提高DNase I超敏感位点的预测效果。本文进一步对与DNase I超敏感位点有关的两个比较重要的顺式作用元件(增强子和启动子)展开研究。在增强子识别研究中,本文采用伪k元核苷酸组成方法提取增强子的序列信息,并结合支持向量机构建两层预测模型,进一步对增强子中的强增强子和弱增强子进行预测,并取得了较好的预测效果。增强子能够增强基因的转录速率,而启动子能够控制基因表达的起始时间和表达程度。在启动子识别研究中,本文基于序列位置信息和伪k元核苷酸组成提取启动子的特征,并使用随机森林和集成学习策略构建预测模型。基准数据集和独立测试集上的性能评估结果表明,本文提出的方法具有较高的预测准确率,而特征分析的结果进一步验证了该特征提取方法的有效性。本文还对DNA复制过程中影响物种进化的重组热点进行了研究。本文提出伪k元核苷酸组成和二元核苷酸自动交叉协方差两种特征提取方法,结合支持向量机构建多个基分类器。对基分类器进行近邻传播聚类,保证了基分类器具有较好的性能并且它们之间具有较大的差异性。基准数据集上的实验结果表明,我们的方法较其他方法预测准确率具有一定程度的提高。
其他文献
本文对碰撞分枝过程的相关性质进行了研究讨论,主要介绍了碰撞分支过程的对偶、单调性、灭绝概率,以及拟平稳分布的存在情况的一些相关结论。第一章是本文的绪论部分,介绍了
能量散逸性是许多偏微分方程的一个重要特性,如常见的扩散方程,Allen-Cahn程,Cahn-Hilliard方程等都具有能量散逸性.能精确地计算这些偏微分方程数值解的行为且很好地保持这
经过一百多年的发展,孤子的概念广为熟知,相关的理论也日趋完备。孤子是一类由于非线性和色散动态平衡而形成的非线性局域波。虽然研究者们在实验系统中可以观察到不同种类的
研究目的:1.探讨西达本胺(chidamide)是否能够替代利妥昔单抗(rituximab,R),增强利妥昔单抗耐药的弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)细胞系对CHOP治疗的敏感性,为弥漫大B细胞淋巴瘤的个体化和精准治疗提供新思路。2.探究西达本胺联合CHOP对利妥昔单抗耐药的弥漫大B细胞淋巴瘤细胞系的作用及相关分子机制。研究方法:1.通过
本文针对二阶椭圆微分方程反源问题,讨论了由文[22]引入的极小问题的高次有限元方法,建立了基于全局测量数据的反源问题的两种二次有限元变分问题解函数的误差估计理论.数值
本文研究了一种用于超临界压缩空气储能系统的堆积床蓄冷器。该蓄冷器采用超临界空气作为传热流体,采用氯化钠颗粒作为固体储冷介质。本文利用多孔介质热平衡模型来模拟堆积床蓄冷器内的流动和传热。在验证了模型的正确性后,本文模拟了蓄冷器的完全储冷和完全释冷过程。结果表明,在储冷过程中,蓄冷器内狭窄的斜温层区域内沿着流动方向空气由高压低温液态变化到超临界状态。该状态变化伴随着空气剧烈物性变化,从而导致了斜温层区
随着光子学器件小型化、微型化的需求与日俱增,光波导纳米线逐渐成为人们所研究的热点。光波导纳米线主要可以分为两个部分:一部分是由光纤经过火焰加热拉制等方法而制得的微
有效整合了经济增长、嵌入性和多层统计模型三个方面的理论,构建了基于嵌入性视角下发展中大国经济增长的理论模型,解决了发展中大国的嵌入性变量对经济增长的影响路径以及影
网络是一种呈现复杂系统的有效方法,现实生活中的许多数据集都能非常自然的以网络的形式表示。随着时代的发展,科技的进步,人类的社会生活中出现了种类繁多的社交应用,不仅丰
在非晶硫系材料中,光致结构变化是一种十分重要的现象,而Ge-Sb-Se体系薄膜内部结构中存在着各种缺陷以及特殊键,极其容易在光照条件下发生键的断裂与重组,这会引起薄膜性能的