基于特征工程的蛋白质分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huzhouweno
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的实施,对生命科学的研究进入后基因组时代,蛋白质组学作为生命科学研究进入后基因组时代的里程碑,是生命科学研究的核心内容之一。蛋白质作为蛋白质组学主要研究对象,对它结构和功能破译是蛋白质组学的最终目标。而蛋白质分类作为蛋白质组学研究领域的一个重要分支和基础问题,是生物信息学的研究热点,本文基于特征工程技术对蛋白质分类这一课题进行研究,展开了两个蛋白质分类的专题,具体研究内容如下:1.提出基于SVM和多特征组合的高尔基体蛋白质类别预测方法,它组合了Pse KNC,Pse PSSM,6)-separated-bigrams-PSSM三种特征抽取方法,并使用Adaboost Classifier算法从Pse KNC中选择出最优的特征,得到329个特征,随后与Pse PSSM,6)-separated-bigrams-PSSM组合得到769维向量,然后,使用Random-SMOTE来平衡训练集,最后使用支持向量机(SVM)算法来区分cisGolgi蛋白质和trans-Golgi蛋白质,我们方法最终在jackknife验证、独立测试集验证和10折交叉验证中获得的准确率分别为96.5%、96.5%和96.9%,是目前最好的方法。表明本文提出的方法能够显著提高高尔基体蛋白质分类任务的预测精度。2.提出基于集成学习和PSSM的VI型分泌系统效应蛋白(T6SEs)类别预测方法,我们收集了一个新的独立测试集,并构建了一个集成了六个基分类器的集成分类器来识别T6SEs。它使用k-separated-bigrams-PSSM进行蛋白质序列特征抽取,然后使用SMOTE平衡训练集,最后将训练好的集成学习器用来预测目标序列的类别标签。10折交叉验证和独立测试集验证证明所提方法是最有效和最鲁棒的T6SEs预测方法。与现有方法相比,提出的方法在准确率(ACC)和特异性(SP)上都有很大的提升,证明了本文提出方法能有效地提高T6SEs分类任务的预测精度。
其他文献
现如今服装在人们的生活中占据着重要的地位。随着电子商务和互联网技术的飞速发展,服装搭配、虚拟试衣、服装检索等有了广泛的应用场景,然而目前各种应用的效果都并不理想,
物体检测是计算机视觉领域的研究热点之一。在物体检测中,基于深度学习的人体检测和头部检测已表现出广泛的应用前景和需求,比如对一个人进行检测识别不仅要检测到人体而且还
无线传感器网络(Wireless Sensor Networks,WSN),由于其造价低,便于布置等特点受到了研究人员的广泛关注,并且被应用到了各个领域(如:军事,控制,监测等等)。分布式估计是信号
本文提出一种以实复式钢管异强混凝土(CFDST)柱为框架柱,以翼缘为矩形钢管混凝土的H型蜂窝组合梁为框架梁的新型框架体系,通过整体式节点实现梁柱的装配式连接,该体系可应用
从人员伤亡和经济损失层面来看,地震灾害已然成为了自然灾害中的群灾之首。为更好地抵御地震对人类社会的危害,国内外学者及工程师一直致力于研究地震动特性和结构抗震设计方
膏体燃气发生器是目前发展的一种新型可调燃气发生装置,其兼具液体、固体火箭发动机的优点,集结构简单、多次启动、推力可调、安全性高、可靠性高等特点于一身,具有十分广阔
在制造系统中,车间调度问题既是实际生产过程中的重大问题,也是广大研究人员理论研究的重难点之一,具有重要的实用价值和理论意义。目前,企业车间生产在机床刀具使用上仍然采
在世界各国积极发展低碳经济引导低碳消费的大环境下,如何引导居民实施低碳消费已经引起了世界各国的密切关注。早先,我国关注的重点是物质资料生产和物质生产服务方面,并在
在我国的经济中,建筑施工行业占据着中心产业的地位,其从事的基础设施项目可以带动各行各业的发展。而我国的基础设施建设需求很大,随着基建投资的增大,我国施工企业的发展也
目前星载微光遥感器已应用于环境监测、灾害预报和城市发展评估等领域,但由于各种因素的影响,随着使用寿命的增加,其数据精度会下降。需要对其进行重新定标校准。由于定标光