基于深度神经网络和集成方法的蛋白质相互作用预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wj963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命的物质基础之一,其相互作用(protein-protein interaction,PPI)几乎控制所有细胞过程,对生物体内各种生理功能的执行发挥着至关重要的作用,掌握这种作用关系不仅有助于理解生命活动的执行机制,也能够为疾病形成与发展、药物设计等提供重要理论支撑。传统生物实验每次能够测定的蛋白质对数目有限,且时间等花销较大,存在局限性。相比之下,使用计算的方法具有省时省力且灵活性高的特点,因此受到了较多关注,其中,基于机器学习的计算方法已成为了研究热点。在后基因组时代,基因序列数据等资源丰富,为基于机器学习方法预测蛋白质间相互作用关系的广泛应用奠定了基础,众多预测方法应运而生。随着机器学习算法的发展,模型的性能得到了持续的提升,但是一些新的模型在蛋白质互作预测研究中却并未得到充分利用。其次,生物数据类别较多,如何充分利用已有数据进行预测并没有统一标准,且不同的特征提取方法与分类器之间常互相限制,当替换分类器时有时需要同时更换数据和特征提取方法才能够维持好的预测性能。针对这些问题,本文提出了基于深度神经网络和基于集成学习模型的两种PPI预测方法。基于深度神经网络的PPI预测框架整合了多种生物信息,包括序列相似性、重要性、亚细胞定位信息以及GO语义相似性信息,组成抽象层次较高的低维特征向量,然后构建深度神经网络,学习蛋白质的特征数据并对未知蛋白质对进行预测。实验结果表明,本文整合的生物特征能够有效降低分类器的时间花销并提高分类准确性,较适用于PPI预测研究,此外,我们构建的神经网络也有较好的泛化能力。基于深度网络的预测方法需整合多个数据源的信息,存在前期人力成本较高的缺点。而且有些蛋白质不具有实验所需的完备生物信息记录,无法获取对应特征向量,相对而言,蛋白质序列数据资源则更丰富且容易获取。鉴于此,我们又提出了一种基于连续小波变换和集成学习模型的PPI预测方法作为补充。该方法综合考虑了氨基酸的不同物理化学性质,利用对应数值将蛋白质序列转化成数字表示形式,然后使用连续小波变换和尺度-小波能量谱从长度不一的序列数据中提取出等长的特征向量。基于此特征向量,我们训练了7个随机森林,通过整合不同随机森林的输出结果,完成预测。实验证明,该方法在多种蛋白质数据上都具有较高的预测性能,值得进一步深入研究。
其他文献
我国是人口大国也是粮食消费大国,但是我国的可耕地面积却不断下降。因此在保障我国粮食安全之中提高粮食单产就显得尤为重要。本文从我国农业生产中不同年份不同小麦品种推
<正>窗外的世界虽然热闹,但有时候也会觉得聒噪,如果有一个恬静舒适的小空间,可以在这里发呆,思考、冥想,享受孤独的小自由,那应该也是一件很惬意的事儿。小碎花简洁、淡雅,
《世说新语补》为明代王世贞据刘义庆《世说新语》与何良俊《何氏语林》二书删定而成,并非如四库馆臣所说的删定者为凌濛初。明清以降,此书风行于海内外,带动了整个东亚的"世
在低速冲击载荷作用下,建立了一种适用于铺层总数较多的复合材料层合板的损伤预测模型。采用三维Puck失效准则预测层内纤维与基体的破坏,并获得基体失效时的断裂面角度。根据
<正>随着2014年3月8日"印象派大师.莫奈特展"在上海闹市区商场K11的举办,再一次把民营画展推到了风口浪尖上。究竟这样的画展是否具有严谨的学术水准?是否有借大师之名"敛财"
以含有猪流感病毒A/Swine/Guangdong/9/2005(H3N2)NP基因的重组质粒pMD18-NP为模板,利用带特定酶切位点的引物PCR扩增NP基因,将其亚克隆质粒pIRES2-EGFP中,再次将含有NP及EGF
目的:观察针刺与艾灸足三里治疗化疗后迟发性呕吐效果以及对外周血P物质含量的影响。方法:采用随机对照的研究方法,选取2015年6月~2018年6月上海中医药大学附属上海市中西医
本文主要介绍了网络远程教学的重要形式--网上虚拟学习系统的组成要素及教学效果的评测手段.
针对水处理合成有机高分子絮凝剂的研究、发展及应用情况进行了详细概述,对常用的应用实例进行了分类及使用说明,还介绍了一些新型高分子有机水处理有机絮凝剂的研究成果,并