基于Boosting策略的启动子预测方法研究

来源 :烟台大学 | 被引量 : 0次 | 上传用户:liuyingbo1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在DNA序列分析中计算机预测真核基因的启动子是最具挑战性的问题之一。由于转录是基因表达的第一步,对转录的调控必然成为表达调控的重要形式,而启动子是决定转录起始点和转录频率的关键元件,因此启动子的识别对整个基因组的功能的诠释具有重要作用。本文基于已知的启动子与非启动子序列数据,从序列的信息出发提出了两个不同的启动子预测方法。本文首先提出了一个称为KL-Boosting的启动子预测方法,它基于以下假设:启动子是由一些词模式决定的且不同的启动子由不同的词决定。通过计算散度距离选择最可能的特征并用feature-boosting构造一系列的弱分类器。一定数目的弱分类器可构造一强分类器,这样就可以达到一个较好的性能。和其它分类器不同的是,采用了不同的训练和分类策略。其次,本文提出了另外一个称作PWM-Boosting的启动子预测方法,它是基于以下假设:启动子不仅是由一些词模式决定的,而且也由这些词模式的位置所决定。通过检索序列的差异位置权重矩阵来寻找序列的特征,并调用开源计算机视觉库的Boosting算法来训练和测试的。采用了与KL-Boosting方法类似的训练与分类策略。通过对测试样本的测试显示,KL-Boosting方法的敏感性与特异性适中,且具有较好的稳定性。而PWM-Boosting方法的敏感性和稳定性不如KL-Boosting方法,但它的特异性很高。最后,对规模基因序列实验结果和四种较好的算法(Eponine,DFP,FirstEF以及PromoterInspector)进行比较,结果显示这两个算法在预测启动子区域是有效的具有较好的敏感性和特异性,而且均有各自的特点。
其他文献
由于PDF文件格式在跨文字、跨语言、跨平台、跨媒体,跨软体方面有着卓越的表现,已逐渐成为网络电子文档交换以及归档的标准。随着PDF文件的广泛应用,它的安全问题越来越受到
分析与处理分子生物学实验、特别是近年来涌现的高通量方法产生的海量数据是生物信息学的重要任务。大量计算机学科方法广泛地应用在这个领域中。分子生物学数据库是这两个学
近几十年来,由于影视动画、虚拟现实和计算机游戏等领域的不断发展,基于物理的计算机动画成为人们研究的热点方向,它通过探索真实世界中自然现象的物理本质,利用计算机为物体
任意波形发生器(Arbitrary Waveform Generator)是一种常用的信号源,广泛用于科学研究、生产实践和教学实践等领域。随着微电子和计算机技术的蓬勃发展,人们对任意波形发生器的
随着计算机技术在化学中的广泛应用,各种计算化学应用软件、仪器设备及相关数据等资源的大量涌现使得化学研究愈来愈依靠网格技术。因此,借助当前计算机网格技术,建立计算化学网