论文部分内容阅读
增强子是组织特异性的远端调控元件,对基因的转录调控起着重要作用。对其鉴定和预测是生物信息学研究的一个重大的挑战。目前的研究方法多数采用单一分类器,并且只是预测基于转录共激活因子EP300的增强子,分类器的推广性能较差。 本研究构造了一个混合分类器eRFSVM,利用随机森林作为基分类器,支持向量机作为主分类器,对增强子进行预测。eRFSVM包含两个组分,eRFSVM-ENCODE和eRFSVM-FANTOM5,利用了不同的模型特征和标签。基分类器利用随机森林对单一组织中的数据集进行训练。主分类器利用支持向量机对基分类器中的结果数据进行模型训练。对于eRFSVM-ENCODE,我们利用Gm12878,Hep,H1-hesc和Huvec四个细胞系中的ChIP-Seq数据作为模型特征,EP300作为标签进行训练,得到了一个混合分类器。对于K562细胞系中的数据进行测试时,发现精密度为83.69%,高于目前所有基于转录共激活因子EP300预测增强子的方法。对于eRFSVM-FANTOM5,利用FANTOM5中基于基因表达水平鉴定的增强子作为标签,进行增强子预测。我们发现,其精密度、召回率、F值、准确率分别为86.17%、36.06%、50.84%和93.38%,高于现有算法的69.92%、18.30%、28.74%、89.20%, 分别提升了23.24%、97.05%、76.90%、4.69%。 因此,结果表明eRFSVM是现有方法中用于预测无论是基于EP300还是FANTOM5中的增强子的最佳方法。