论文部分内容阅读
在后基因组时代,随着高通量测序技术的不断发展和应用,亚细胞位置未知的蛋白质序列数据海量积累,同时具有多个亚细胞位置的蛋白质数量也快速增长,只靠传统的实验手段进行蛋白质亚细胞定位已越来越难以适应这种形势,于是基于机器学习的蛋白质亚细胞定位预测方法逐渐发展起来,这种方法大都采用分类学习的手段进行预测。对预测方法进行研究有助于蛋白质亚细胞定位问题的解决,而蛋白质的亚细胞位置信息能够为进一步确定蛋白质的功能提供非常有价值的线索,这有利于加速对蛋白质“序列-结构-功能”映射关系的解密,为蛋白质数据的注释和管理提供支持。在已经出现的蛋白质亚细胞定位预测方法中,对集成多标记学习技术的应用还比较少,而且大都只关注对特定问题、特定算法或技术的研究,缺少对通用型可扩展预测系统的探索,特别是针对基于集成多标记学习的预测系统。研究构建集成多标记学习模型的底层基础结构,为进一步实现基于集成多标记学习的蛋白质亚细胞定位预测系统建立良好支持,同时也为设计解决其它多标记学习问题的系统提供模型参考,这在理论和实践方面都具有一定的价值和意义。为了促进集成多标记学习技术在蛋白质亚细胞定位预测问题中的应用,本文对集成多标记学习系统底层接口体系的设计、集成多标记学习系统框架的构建和蛋白质亚细胞定位预测系统的实现等方面进行了研究,并将预测系统应用于蛋白质亚细胞定位预测中,对其功能操作和预测性能进行了分析,主要研究内容包括:1.在对学习算法进行梳理和归类的基础上,形成了一种广义的称为“面向标记集的学习算法”新类型。在此基础上,结合二分类学习、面向标记集的学习、集成学习、优化学习和面向对象技术等内容,设计了一种通用型可扩展的三层集成多标记学习模型,通过设计模型的类体系接口,构建出了一个集成多标记学习Java类库EMLL.jar,为扩展实现解决多标记学习问题的系统奠定基础。2.在EMLL.jar类库、样本表示和性能度量的基础上,通过扩展实现各层中的学习方法,进一步构建了一种集成多标记学习系统框架,并对其进行了形式化表示,详细描述了学习系统的构建流程和执行过程。在个体学习层,直接或改造实现了若干现有的二分类算法、多分类算法和多标记学习算法。另外,利用ECOC、一对一、一对多、多对多等策略设计出几种新的面向标记集的学习方法,为个体分类器的多样性提供支持。在集成学习层,设计并实现了若干用于确定集成操作中所用个体分类器组合的集成模式和如何对这些个体分类器进行集成的集成策略,二者为生成集成分类器提供支持。在优化学习层,设计了一种基于预测可信度和粒子群优化的加权分类器优化方法,该优化方法的应用使预测性能得到了提高。通过流程性界面设计和多线程技术实现对整个学习系统执行过程的控制,以配置属性方式提供了对系统功能和性能需求的灵活动态扩充手段,发布了框架的Java类库EMLLS.jar,为二次开发提供了可行性。3.针对蛋白质亚细胞定位预测问题,在三层学习结构和EMLLS.jar学习系统框架库基础上,以实现和改进若干蛋白质特征表示方法为前提,实现了一个基于集成多标记学习的蛋白质亚细胞定位预测系统。系统能够对蛋白质序列数据集进行简化格式存储和轻量级访问,同时提供了若干蛋白质特征处理方法。另外,通过对亚细胞组合在蛋白质序列数据集中出现频率的统计,探索了一种体现相关标记和无关标记信息的蛋白质亚细胞位置关联模型,并以此为依据提出了一种过滤优化学习方法。经过在测试数据集上运行预测系统,对系统的功能进行了验证。运行结果表明,从配置数据的读取、学习方式的设置和数据集的载入,到个体学习、集成学习、优化学习和最终分类器的生成与序列化等在线学习阶段的任务执行,再到离线预测阶段的功能操作,整个过程都能够正常进行,验证了系统功能的可操作性。4.为了度量系统的预测性能,分别在革兰氏阳性细菌蛋白质和动物蛋白质两个数据集上进行了实验。实验中对特征融合和特征集成进行了比较,对个体学习、集成策略和优化方法进行了测试,分析了在不同亚细胞和不同亚细胞数目上预测性能的差异,对比了不同度量指标对学习过程指导的差别,讨论了蛋白质亚细胞位置关联模型在预测中所起的作用。通过对实验结果进行综合分析并与相关的研究进行比较,表明了本文所实现的预测系统具有较好的预测性能。综上所述,本文设计并实现了一种可扩展的三层集成多标记学习系统模型,并基于该系统扩展出一个用于解决蛋白质亚细胞定位问题的预测系统,实验结果表明系统具有功能上的可操作性和预测性能上的有效性。通过添加新的特征、算法等元素增强系统的预测性能,为进行蛋白质亚细胞定位预测的研究提供了一个良好的实验操作平台。然而,本文对蛋白质特征提取缺少较全面的探索,对蛋白质亚细胞位置关联模型的表示形式和作用尚需进一步提升。引入更加有效的特征表示、设计性能更好的学习算法、进一步改善系统并提供基于Web方式的应用是将来的主要研究方向。