论文部分内容阅读
序列数据是数据挖掘问题中一类特殊数据,广泛存在于社会生活各个领域,如何从这些复杂海量序列数据库中挖掘蕴含其中的有用信息是数据挖掘的新研究课题,具有重要理论意义和实际价值。本论文以蛋白质序列数据为例进行序列数据分类研究,亦为生物信息学中课题。论文围绕蛋白质序列数据的分类预测这一主题,在综合众多序列数据分析算法的基础上,将序列特征分析归纳为两类主要方法,基于特征提取的方法和基于相似性模型的方法,由此将研究路线分为两条。一方面基于特征提取方法,分别针对膜蛋白及信号肽序列,根据序列各自特性提取相应特征进行分类。另一方面,基于相似性模型,提出基于全序列比对的相似度以预测信号肽,进而嵌入核空间提高预测稳定性,达到提取序列明确属性向量的目的,至此实现两条技术路线的统一。论文还进一步通过线性降维实现冗余及不相关维数约简及可视化。总的来说,本论文集中于蛋白质序列的分类预测研究,着重于以下几个创新点:(1)针对不同序列有区别有目的地提取序列特征生成属性向量,从而训练分类器并提供对新样本的预测。其中对于序列长度相对较长的膜蛋白序列,首先进行数值化编码生成时间序列,将其作为各样本以不同时间间隔抽样的离散信号,从而基于数字信号处理理论进行序列分析,避免了以往算法忽略序列次序信息的缺点。分析发现借助信号低频的幅度及相位信息,可以有效提取序列特征并可减少噪声带来的影响。实验结果表明这种基于频域的特征提取方法可以有效提取膜蛋白序列特征,以利于分类预测。(2)在对序列长度相对小的信号肽序列预测时,采用滑动窗截断的方式将不等长序列转换为固定长度的序列片断,经过互信息分析发现其内部各位点间存在复杂的耦合作用,针对已有算法盲目定义这种耦合作用的情况,提出基于多决策树方式提取规则,并借助其识别信号肽及其断裂点。经实验证明这种处理方式在信号肽预测问题中可有效提高序列片断及信号肽剪切点的预测率。(3)以相似性作为分类预测的基石,定义基于全序列比对的相似度预测信号肽,避免了采用滑动窗所带来的不平衡样本等诸多问题。通过分析此相似度的数学特性,详细证明其为一种度量。另外将其应用于信号肽预测中,在预测率及稳健性方面获得了良好效果,结果表明此相似度确实可以表征样本之间的相似关系,并为预测分类提供了良好的信息表示方式。提出的算法已经通过internet在网上提供相应使用服务,为扩大算法的使用范围提供了快速有效的途径。(4)探讨非正定核的处理方法,在分析基于全序列比对的相似度与欧氏距离偏差基础上,提出基于全序列比对的非正定核算法,并应用于信号肽分类预测中;另一方面,在保证预测率的前提下,实现提取序列样本特征向量的目的,将问题重新化归于基于特征的模式识别问题。实验结果表明算法确实可以有效提取蛋白质序列特征,方便信号肽预测工作。(5)针对线性降维中的“小样本问题”,充分利用类内离散度矩阵的空空间的特性,提出新的降维方法,且有效处理了小特征值导致的不稳定问题。信号肽预测工作中,在已经得到高维属性向量前提下,约简大量冗余和不相关属性,提高处理效率并实现了可视化的要求,取得了理想的效果。