基于PSSM和GO特征的蛋白质亚细胞多标签定位预测

来源 :福州大学 | 被引量 : 0次 | 上传用户:fxh722744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细胞是一个高度结构化的单元,内部结构复杂而精巧,可定义出不同的亚细胞区域,亚细胞间分工合作,使生命活动有序进行。蛋白质作为机体的重要成分,存在于特定的亚细胞位点中执行特定的生物学功能,维持正常的新陈代谢。研究表明蛋白质可能同时存在于多种亚细胞区域中,这类蛋白质的定位结果具有多样性。因此,蛋白质亚细胞定位预测可转化为一个多标签分类问题,该领域的相关研究主要从特征提取和构建算法模型两方面进行探究,以提高预测准确率。本文的主要内容也是立足于上述两个方面。在特征提取方面,为了提高特征信息的有效性,本文从以下三个方面进行探究,构建特征向量。首先,分别从蕴含蛋白质进化信息的位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM)、目标蛋白质及其同源蛋白质集的GO(Gene Ontology,GO)注释信息中,依次抽取特征信息,构建用来表示蛋白质的特征向量;其次,采用文本分类的卡方检验的对数变换(Logarithmic Transformation Of CHI-square,LCHI)思想构建加权系数对特征向量进行加权处理,对注释信息识别样本类别的能力进行区分;最后,采用希尔伯特-施密特独立标准(Hilbert-Schmidt Independence Criterion,HSIC)的思想对特征向量进行降维,减少冗余性,也能降低后续所构建的分类模型的复杂性,提高预测性能。采用合理的特征提取方式构建样本的特征向量是提高预测性能的前提条件,在此基础上,算法模型的研究也是该领域的一个重要研究内容。蛋白质亚细胞多标签定位预测问题的预测标签具有多样性、不确定性等特点,本文采用适用于解决这类模糊性问题的邻域粗糙集的相关思想,结合标签相关性的信息,构建多位点的蛋白质亚细胞定位预测模型。首先,基于领域粗糙集的相关概念,引入可变精度定义上下近似,提高模型对数据集中噪音数据的容忍性;其次,通过分析相关的生物学过程可知亚细胞位点标签之间具有一定的相关性,引入标签相关性相关信息再进一步优化算法模型。最后,通过在目前该领域两个常用的数据集Viral-proteins和Plant-proteins进行的一系列测试,并且采用公认的多标签模型性能的评价指标对木文所提方法的预测效果进行评估,并与当前该领域的相关研究进行对比,对结果进行分析。最终,本文所提的蛋白质亚细胞多标签定位预测方法的有效性得以充分验证。最后,对全文进行总结,并给将来的工作提出建议。
其他文献
目的APOE基因是一个编码与脂蛋白相关的基因。载脂蛋白E异常甲基化与阿尔茨海默病(AD)有关,而AD与ASD可能有重叠机制。基因研究表明,ApoE基因变异与ASD有关,但其甲基化是否与
MG(Management Game,简称MG)是东北大学与美国卡耐基.梅隆大学合作的企业管理模拟课程中的公司经营模拟实践。Times公司(全称为Times腕表股份有限公司)是在MG环境下经营的模
图像配准是图像处理技术中的一个基本问题,其主要目的是基于灰度属性,图像分辨率,寻找两个或多个图像之间的最佳的配准位置。也可以说图像配准技术是在不一样的时间点,不一样
战略在企业的经营中具有至关重要的作用,是企业的灵魂所在。生产战略是职能战略的一种,是企业经营战略中重要一环,没有适当的生产战略,企业的经营战略就无法实现。生产战略的
芳香醇是一类重要的化工中间体。在选择性催化还原芳香酮制备相应芳香醇的多种方法中,MPV氢转移反应具有反应条件温和,选择性高,后处理简单等优点,可成为制备芳香醇的一条便
全球气候变化尤其是气候变暖是目前生态学研究的热点问题。碳通量是陆地生态系统碳循环的重要组成部分,准确估算全球或区域尺度的碳通量有助于定量化分析陆地生态系统碳循环
肿瘤对人类生命健康的影响愈发严重。研究肿瘤的成因和发展对肿瘤疾病的预防、诊断和治疗具有极其重要的理论与实际意义。通常,肿瘤是由基因突变形成的,而DNA微阵列技术为人
锥形空心件是航空、航天和兵器工业中普遍采用的一类零件,由于材料和尺寸的不同,其成形方法多种多样,但对于薄壁尖而深的锥形件,旋压是最适合的成形方法,并在实际生产中得到
在查阅了国内外波涌灌溉技术及波涌灌溉设备发展现状的基础上,针对我国节水灌溉技术发展过程中存在的波涌灌溉设备种类较少、换向阀旋转阻力较大等问题,设计并制造了 一种新
自组织现象广泛存在于自然世界,社会体系及生命系统等诸多领域中。这种现象是生命的本质内容之一,也是形成各种复杂生物体的基础。其中,小分子集群的自组织行为是揭示化学变