基于序列的蛋白质—核苷酸绑定位点预测研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:virusniper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年的研究表明,蛋白质与核苷酸之间的相互作用与人类的各种疾病有着密切的关联,而蛋白质与核苷酸结合的绑定位点往往会成为药物设计的重要支撑点。从这点上来说,蛋白质-核苷酸绑定位点预测的意义重大。然而,单纯依赖生物学实验来获取蛋白质-核苷酸绑定位点情况的成本大,而且耗时长。因此,使用模式识别的方法来进行预测越来越重要。同时蛋白质-核苷酸绑定位点预测是一个典型的不平衡学习问题,因为整个序列中少数类(绑定残基)远少于多数类(非绑定残基)。可以通过采样方法来解决这个问题。本文就蛋白质-核苷酸绑定位点预测技术进行了深入研究,主要工作如下:(1)研究了蛋白质的特征提取。利用位置特异性迭代搜索算法(Position-Specific Iterative Basic Local Alignment Search Tool, PSI-BLAST)得到初始的位置特异性得分矩阵(Position Specific Scoring Matrix, PSSM),并用sigmoid函数对PSSM进行归一化。利用滑动窗口技术来提取蛋白质序列中残基的邻域特征作为该残基的特征,而得到的残基的邻域特征正好可以被看作是一幅图像,进而可以利用数字图像处理中的稀疏表示方法提取更为优质的PSSM特征。(2)研究了加权下采样和基于聚类的下采样两种采样方法。这两种采样方法都可以解决不平衡学习问题。加权下采样利用K近邻来计算训练样本的一个得分矩阵,并根据得分矩阵计算样本的权值,然后依据样本的权值来选择和正类样本一样多的负类样本,并将选择的负类样本与所有正类样本一起组成新的训练样本。基于聚类的下采样则先用C_均值算法对训练样本中所有的负类样本进行聚类,其中的C等于训练样本中负类样本个数与正类样本个数的比值,然后在每个聚类中随机选择一定比例的样本,并将选择的负类样本与所有正类样本一起组成新的训练样本。(3)研究了WUS-SVM和CUS-SVM两种预测模型。WUS-SVM预测模型是结合加权下采样和支持向量机形成的,而CUS-SVM预测模型则是结合基于聚类的下采样和支持向量机形成的。在NsitePred和BioLip两个标准数据集上分别做五重交叉验证实验和独立测试实验来检验两种预测模型的性能。实验结果表明,两种预测模型各自采用不同的下采样方法来解决不平衡学习问题,在一定程度上提升了预测性能。
其他文献
近年来,复杂网络的研究倍受外界的关注,其中利用复杂网络的模型,尤其是BA无标度网络模型,模拟现实网络广泛应用于物理学领域、生物学领域和计算机学学领域等。如今可根据现实
工作休假是指在休假期间,服务员不是完全停止服务,而是以较低的速率继续为顾客服务,这样既可减少顾客由于不耐烦排队离开后所造成的损失,也可以提高经济效益。在过去的几十年
恢复筑路取土迹地的植物群落既是保证路基安全和控制水土流失的关键,又是青藏高原退化高寒草地恢复的重要组成部分。生态化学计量是揭示退化草地自然恢复过程中土壤和植物间
随着信息技术的迅猛发展,各种各样复杂的排队系统也随之不断的涌现,尤其是带有负顾客和优先权的排队模型更具有实际的应用价值。本文研究了等待空间有限的带有负顾客、止步的
服务质量被广泛应用于通信系统、服务和制造行业等诸多实际应用领域中,其作用举足轻重,并已成为衡量服务是否有效可靠的重要因素。近年来,随着通信网络系统不断发展,更高的服
氮素的吸收和利用是天然草地的生产力和其群落结构变化的一个很重要的影响因子,弄清楚氮素添加是否以及如何改变物种的空间分布进而改变一定程度上的多样性,对于保护和恢复天
尿苷二磷酸葡萄糖焦磷酸化酶(UDP-glucose pyrophosphorylase,UGPase EC2.7.7.9)是生物体糖代谢中重要的酶之一,它广泛地存在于原核生物(如大肠杆菌)和真核生物(如真菌、植物和动
工作故障策略自被引入排队系统以来,凭借其在计算机通讯网络、柔性制造系统中发挥的重要作用,成为一个新兴的研究热点。本文以经典的M/M/1排队系统为基础,结合休假、可变的到
连通图G两个顶点vi和vj之间的电阻距离rij定义为用单位电阻来代替G中的每条边后相应构造出的电网络N中节点vi和vj之间的有效电阻。Klein和Randic把图G的Kirchhoff指标Kf(G)定
本文基于Mobius变换等距球的性质和作用,得到了四元数Mobius变换g的一个分解g=tfO。利用旋转变换O与对应Mobius变换g的不动点的关系,得到一定条件下四元数Mobius变换的分类。