基于混合分类器的增强子预测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xfcll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增强子是组织特异性的远端调控元件,对基因的转录调控起着重要作用。对其鉴定和预测是生物信息学研究的一个重大的挑战。目前的研究方法多数采用单一分类器,并且只是预测基于转录共激活因子EP300的增强子,分类器的推广性能较差。  本研究构造了一个混合分类器eRFSVM,利用随机森林作为基分类器,支持向量机作为主分类器,对增强子进行预测。eRFSVM包含两个组分,eRFSVM-ENCODE和eRFSVM-FANTOM5,利用了不同的模型特征和标签。基分类器利用随机森林对单一组织中的数据集进行训练。主分类器利用支持向量机对基分类器中的结果数据进行模型训练。对于eRFSVM-ENCODE,我们利用Gm12878,Hep,H1-hesc和Huvec四个细胞系中的ChIP-Seq数据作为模型特征,EP300作为标签进行训练,得到了一个混合分类器。对于K562细胞系中的数据进行测试时,发现精密度为83.69%,高于目前所有基于转录共激活因子EP300预测增强子的方法。对于eRFSVM-FANTOM5,利用FANTOM5中基于基因表达水平鉴定的增强子作为标签,进行增强子预测。我们发现,其精密度、召回率、F值、准确率分别为86.17%、36.06%、50.84%和93.38%,高于现有算法的69.92%、18.30%、28.74%、89.20%, 分别提升了23.24%、97.05%、76.90%、4.69%。  因此,结果表明eRFSVM是现有方法中用于预测无论是基于EP300还是FANTOM5中的增强子的最佳方法。
其他文献
在这里我们研究听说的教学设计时,会使用到五个关键动词:listen, say, look, think, do (say在本节里也代表tell, retell, talk, speak, report等动作)。把这五个关键动词进行不同的匹配,可以帮助我们设计出不同类型的听说活动。Listen和look 是信息的输入活动, say 和do是信息的输出活动,think是信息的内部加工活动。   1.
为了明确玉米大斑病菌Fus3/Kss1-homolog途径在病菌生长发育及致病过程中的调控作用,本研究通过候选基因法和Genome-walking技术克隆得到了玉米大斑病菌MAPK级联途径Fus3/Kss
电化学生物传感器以其快速、灵敏、成本低廉、可进行现场检测、简便等特点,在食品、化工、制药、临床诊断、生物医学和环境分析等方面具有广阔的应用前景。纳米材料具有强吸