论文部分内容阅读
细胞是一个高度结构化的单元,内部结构复杂而精巧,可定义出不同的亚细胞区域,亚细胞间分工合作,使生命活动有序进行。蛋白质作为机体的重要成分,存在于特定的亚细胞位点中执行特定的生物学功能,维持正常的新陈代谢。研究表明蛋白质可能同时存在于多种亚细胞区域中,这类蛋白质的定位结果具有多样性。因此,蛋白质亚细胞定位预测可转化为一个多标签分类问题,该领域的相关研究主要从特征提取和构建算法模型两方面进行探究,以提高预测准确率。本文的主要内容也是立足于上述两个方面。在特征提取方面,为了提高特征信息的有效性,本文从以下三个方面进行探究,构建特征向量。首先,分别从蕴含蛋白质进化信息的位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM)、目标蛋白质及其同源蛋白质集的GO(Gene Ontology,GO)注释信息中,依次抽取特征信息,构建用来表示蛋白质的特征向量;其次,采用文本分类的卡方检验的对数变换(Logarithmic Transformation Of CHI-square,LCHI)思想构建加权系数对特征向量进行加权处理,对注释信息识别样本类别的能力进行区分;最后,采用希尔伯特-施密特独立标准(Hilbert-Schmidt Independence Criterion,HSIC)的思想对特征向量进行降维,减少冗余性,也能降低后续所构建的分类模型的复杂性,提高预测性能。采用合理的特征提取方式构建样本的特征向量是提高预测性能的前提条件,在此基础上,算法模型的研究也是该领域的一个重要研究内容。蛋白质亚细胞多标签定位预测问题的预测标签具有多样性、不确定性等特点,本文采用适用于解决这类模糊性问题的邻域粗糙集的相关思想,结合标签相关性的信息,构建多位点的蛋白质亚细胞定位预测模型。首先,基于领域粗糙集的相关概念,引入可变精度定义上下近似,提高模型对数据集中噪音数据的容忍性;其次,通过分析相关的生物学过程可知亚细胞位点标签之间具有一定的相关性,引入标签相关性相关信息再进一步优化算法模型。最后,通过在目前该领域两个常用的数据集Viral-proteins和Plant-proteins进行的一系列测试,并且采用公认的多标签模型性能的评价指标对木文所提方法的预测效果进行评估,并与当前该领域的相关研究进行对比,对结果进行分析。最终,本文所提的蛋白质亚细胞多标签定位预测方法的有效性得以充分验证。最后,对全文进行总结,并给将来的工作提出建议。