基于序列信息的DNA元件与重组热点识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：lyaaaaaa

【摘要】

：

随着高通量测序技术快速发展,人们获得了大量的DNA序列数据。然而采用生物实验分析这些序列比较耗时耗力,这些序列的结构和功能数据增长缓慢,因此急需新的方法处理这些数据。

【作者】

：

龙任

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

DNase I超敏感位点增强子启动子重组热点集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着高通量测序技术快速发展,人们获得了大量的DNA序列数据。然而采用生物实验分析这些序列比较耗时耗力,这些序列的结构和功能数据增长缓慢,因此急需新的方法处理这些数据。本文基于DNA的序列信息(碱基组成信息、理化属性信息和碱基位置信息),结合机器学习方法对参与基因表达的三种DNA调控元件(DNase I超敏感位点、增强子和启动子)和影响DNA复制的重组热点进行研究。DNase I超敏感位点是染色质上容易被DNA酶I降解的区域,它与很多基因调控元件有关。现有方法采用单一特征识别DNase I超敏感位点,限制了预测效果。针对这一问题,本文采用三种不同的特征提取方法(k元核苷酸组成、反向互补k元核苷酸组成和伪二元核苷酸组成)提取多种序列信息,结合随机森林构建基分类器,同时采用加权求和投票表决的集成学习策略,进一步提高DNase I超敏感位点的预测效果。本文进一步对与DNase I超敏感位点有关的两个比较重要的顺式作用元件(增强子和启动子)展开研究。在增强子识别研究中,本文采用伪k元核苷酸组成方法提取增强子的序列信息,并结合支持向量机构建两层预测模型,进一步对增强子中的强增强子和弱增强子进行预测,并取得了较好的预测效果。增强子能够增强基因的转录速率,而启动子能够控制基因表达的起始时间和表达程度。在启动子识别研究中,本文基于序列位置信息和伪k元核苷酸组成提取启动子的特征,并使用随机森林和集成学习策略构建预测模型。基准数据集和独立测试集上的性能评估结果表明,本文提出的方法具有较高的预测准确率,而特征分析的结果进一步验证了该特征提取方法的有效性。本文还对DNA复制过程中影响物种进化的重组热点进行了研究。本文提出伪k元核苷酸组成和二元核苷酸自动交叉协方差两种特征提取方法,结合支持向量机构建多个基分类器。对基分类器进行近邻传播聚类,保证了基分类器具有较好的性能并且它们之间具有较大的差异性。基准数据集上的实验结果表明,我们的方法较其他方法预测准确率具有一定程度的提高。

其他文献

碰撞分枝过程的相关性质研究

本文对碰撞分枝过程的相关性质进行了研究讨论,主要介绍了碰撞分支过程的对偶、单调性、灭绝概率,以及拟平稳分布的存在情况的一些相关结论。第一章是本文的绪论部分,介绍了

学位

碰撞分枝过程对偶单调性以概率1灭绝拟平稳分布

高阶平均向量场方法在Allen-Cahn方程中的应用

能量散逸性是许多偏微分方程的一个重要特性,如常见的扩散方程,Allen-Cahn程,Cahn-Hilliard方程等都具有能量散逸性.能精确地计算这些偏微分方程数值解的行为且很好地保持这

学位

能量散逸性高阶离散梯度法Allen-Cahn方程二维Cahn-Hilliard方程

孤子局域共振激发的实验观测

经过一百多年的发展,孤子的概念广为熟知,相关的理论也日趋完备。孤子是一类由于非线性和色散动态平衡而形成的非线性局域波。虽然研究者们在实验系统中可以观察到不同种类的

学位

孤子非线性耦合单摆链局域共振非线性LC电路

西达本胺联合CHOP对弥漫大B细胞淋巴瘤的协同抗肿瘤作用

研究目的:1.探讨西达本胺(chidamide)是否能够替代利妥昔单抗(rituximab,R),增强利妥昔单抗耐药的弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)细胞系对CHOP治疗的敏感性,为弥漫大B细胞淋巴瘤的个体化和精准治疗提供新思路。2.探究西达本胺联合CHOP对利妥昔单抗耐药的弥漫大B细胞淋巴瘤细胞系的作用及相关分子机制。研究方法:1.通过

学位

西达本胺利妥昔单抗弥漫大B细胞淋巴瘤CHOP细胞凋亡

一种求解二阶椭圆微分方程反源问题的高次有限元法

本文针对二阶椭圆微分方程反源问题,讨论了由文[22]引入的极小问题的高次有限元方法,建立了基于全局测量数据的反源问题的两种二次有限元变分问题解函数的误差估计理论.数值

学位

变分方法反源问题稳定性高次元

超临界压缩空气堆积床蓄冷器储/释冷性能研究

本文研究了一种用于超临界压缩空气储能系统的堆积床蓄冷器。该蓄冷器采用超临界空气作为传热流体,采用氯化钠颗粒作为固体储冷介质。本文利用多孔介质热平衡模型来模拟堆积床蓄冷器内的流动和传热。在验证了模型的正确性后,本文模拟了蓄冷器的完全储冷和完全释冷过程。结果表明,在储冷过程中,蓄冷器内狭窄的斜温层区域内沿着流动方向空气由高压低温液态变化到超临界状态。该状态变化伴随着空气剧烈物性变化,从而导致了斜温层区

学位

压缩空气储能堆积床储冷储/释冷性能数值模拟

光波导纳米线中频率转换的研究

随着光子学器件小型化、微型化的需求与日俱增,光波导纳米线逐渐成为人们所研究的热点。光波导纳米线主要可以分为两个部分:一部分是由光纤经过火焰加热拉制等方法而制得的微

学位

微光纤平面光波导非线性频率转换外部调控全光调控

嵌入视角下发展中大国经济增长理论模型与实证分析

有效整合了经济增长、嵌入性和多层统计模型三个方面的理论,构建了基于嵌入性视角下发展中大国经济增长的理论模型,解决了发展中大国的嵌入性变量对经济增长的影响路径以及影

学位

发展中大国经济增长嵌入式多层统计模型

社会网络中基于边适应度和节点相似性的社区发现

网络是一种呈现复杂系统的有效方法,现实生活中的许多数据集都能非常自然的以网络的形式表示。随着时代的发展,科技的进步,人类的社会生活中出现了种类繁多的社交应用,不仅丰

学位

社区发现局部社区边适应度点相似性

Ge-Sb-Se薄膜的制备及光致结构变化研究

在非晶硫系材料中,光致结构变化是一种十分重要的现象,而Ge-Sb-Se体系薄膜内部结构中存在着各种缺陷以及特殊键,极其容易在光照条件下发生键的断裂与重组,这会引起薄膜性能的

学位

硫系薄膜光致暗化光致漂白激光辐照

基于序列信息的DNA元件与重组热点识别

其他学术论文