基于机器学习的DBP的识别和分类研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:vctlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA结合蛋白(DBP)参与多种细胞活动,在生物体的遗传进化过程中起着关键作用。DBP可以分为单链DNA结合蛋白(ssDBP)和双链DNA结合蛋白(dsDBP),它们分别在DNA复制重组和DNA调控转录等生命活动中发挥着不同的作用。研究DBP是我们探索解释生命体发育进化和疾病癌症等生命奥秘的基础,DBP的识别和分类研究有助于发现蛋白质结构与功能间的联系。DBP可以通过传统的生物实验技术鉴定,例如滤膜结合法、X射线衍射晶体成像法、ChIP-chip、NMR等,但是传统的实验技术需要昂贵的实验设备而且非常耗时,新发现的蛋白质序列数量与日俱增,导致传统实验很难进行大规模识别和分类。随着蛋白质注释工作的推进与机器学习算法的发展,近年来研究人员使用有监督学习仅从蛋白质序列中提取的信息就可以快速鉴定DBP,极大地推动了该领域的研究。首先,本文使用机器学习方法构建识别DBP的预测模型,提出了基于序列信息的多特征融合选择方法(MFFS)的模型—MFFS-IdentDBP。该模型构建过程使用11种特征提取方法从序列中获取蛋白质多种有效的特征信息,结合特征融合与弹性网络获得表示蛋白质的特征向量。该预测模型在测试集和独立测试集上的预测结果准确率、MCC、AUC分别为0.93、0.86、0.97和0.83、0.67、0.86,均优于现有的14种识别DBP的方法。其次,本文应用MFFS方法于DBP的分类研究中,构建了DBP分类模型—MFFS-PreSDBP将DBP分为ssDBP和dsDBP。文中通过一种划分数据集样本的新方法,有效解决了因Uniprot1065中正负样本数量不平衡导致的过拟合问题。该模型可准确对测试集中的正负样本进行分类,且独立测试集的预测结果的准确率、F1、MCC分别达到0.81、0.88、0.44,均高于现有分类方法。本文提出的DBP识别和分类的两种预测模型都表现出较好的性能,表明通过MFFS方法可有效获取蛋白质序列的特征信息,其对应特征属性可进一步应用于蛋白质领域的分析研究中。
其他文献
自2005年我国出台政策鼓励民营资本进入金融行业在内的垄断行业以来,持股银行的门槛日益降低,由以往大型国有企业持股国有商业银行逐渐演变为民营企业持股股份制商业银行及区
1 案例资料2002年10月28日,死者(70岁)拉着固定电线杆的钢丝,倒地死亡,死亡家属及村民发现其左手有一烙烧的痕迹及水疱。死者数日后被葬于水田旁,8个月后法院委托要求对死者
会议
随着PC斜拉桥的广泛应用,其施工和运营阶段的控制工作也愈加重要。建立桥梁管理数据、进行健康监测和损伤评估,也必须要掌握桥梁结构的实际参数情况。通常情况下,根据设计图
捷联导引头由于其结构简单、成本低、体积小等优点,日益成为研究的热点。由于捷联导引头直接与弹体固联,输出与弹体姿态耦合的体视线角,不能直接输出设计制导律所常用的视线
猪瘟、猪繁殖与呼吸综合征(猪蓝耳病)、猪伪狂犬病等3种病毒性疾病是养猪行业目前影响较为严重的疾病。大肠杆菌是人和动物最常见的病原菌之一,控制其感染的重要措施是使用抗
如何搞好乡村治理一直是困扰着农村发展的难题,在中国的封建社会中的乡绅们在乡村治理中就发挥了一定的积极作用,为乡村的治理作出了一定的贡献,但随着时代的发展、社会的进
~~
会议
为了减小坡耕地的水土流失,本试验在5°、10°和15。坡的径流小区设置不同的扰动带,研究其对坡耕地产流产沙的影响。本试验的扰动带为在径流小区内设置的长条形翻耕扰动区域(
织物疵点检测是纺织品质量监控的关键环节,基于图像处理与机器视觉的自动织物检测方法具有速度快、准确率高等优点,成为纺织企业的首选。然而,由于织物图像纹理复杂,疵点形态
本文研究了地聚合物的制备技术以及PVA纤维和碳纳米管对地聚合物性能和微结构影响的多尺度分析。在研究地聚合物的制备技术时,在研究硅铝比、钠铝比和水钠比这三个关键摩尔比