论文部分内容阅读
DNA结合蛋白(DBP)参与多种细胞活动,在生物体的遗传进化过程中起着关键作用。DBP可以分为单链DNA结合蛋白(ssDBP)和双链DNA结合蛋白(dsDBP),它们分别在DNA复制重组和DNA调控转录等生命活动中发挥着不同的作用。研究DBP是我们探索解释生命体发育进化和疾病癌症等生命奥秘的基础,DBP的识别和分类研究有助于发现蛋白质结构与功能间的联系。DBP可以通过传统的生物实验技术鉴定,例如滤膜结合法、X射线衍射晶体成像法、ChIP-chip、NMR等,但是传统的实验技术需要昂贵的实验设备而且非常耗时,新发现的蛋白质序列数量与日俱增,导致传统实验很难进行大规模识别和分类。随着蛋白质注释工作的推进与机器学习算法的发展,近年来研究人员使用有监督学习仅从蛋白质序列中提取的信息就可以快速鉴定DBP,极大地推动了该领域的研究。首先,本文使用机器学习方法构建识别DBP的预测模型,提出了基于序列信息的多特征融合选择方法(MFFS)的模型—MFFS-IdentDBP。该模型构建过程使用11种特征提取方法从序列中获取蛋白质多种有效的特征信息,结合特征融合与弹性网络获得表示蛋白质的特征向量。该预测模型在测试集和独立测试集上的预测结果准确率、MCC、AUC分别为0.93、0.86、0.97和0.83、0.67、0.86,均优于现有的14种识别DBP的方法。其次,本文应用MFFS方法于DBP的分类研究中,构建了DBP分类模型—MFFS-PreSDBP将DBP分为ssDBP和dsDBP。文中通过一种划分数据集样本的新方法,有效解决了因Uniprot1065中正负样本数量不平衡导致的过拟合问题。该模型可准确对测试集中的正负样本进行分类,且独立测试集的预测结果的准确率、F1、MCC分别达到0.81、0.88、0.44,均高于现有分类方法。本文提出的DBP识别和分类的两种预测模型都表现出较好的性能,表明通过MFFS方法可有效获取蛋白质序列的特征信息,其对应特征属性可进一步应用于蛋白质领域的分析研究中。