论文部分内容阅读
近十几年,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据。为了从如此大量的数据中发现有价值的知识及规律,人们结合统计学、数据库、机器学习等技术,提出数据挖掘技术来解决这一难题。聚类分析是数据挖掘研究中的重要内容,成为各学科研究中的重要工具。但在现实生活中,常常遇到高维数据集的处理且在大多数情况下,这些数据集对于各个聚类存在属性不平衡的现象。根据这一点,本文提出在核特征空间中的属性加权核聚类算法,实验表明新聚类算法能很好地反映各属性对于各个聚类的重要性,因而取得了比传统聚类算法更好的结果。传统聚类算法的应用对象往往局限于单一独立的数据集,但在很多情况下一个数据集要和其他数据集相互发生关联。基于信息理论,本文提出的合作聚类算法反映了数据集间的相互作用关系,结果表明聚类结果将受到其他数据集的影响。在人类世界中,人眼是最有效的获取知识的器官,也是最有效的聚类机制。因此模仿人眼的工作原理将为研究聚类分析提供一个非常好的平台。本文通过模拟人眼非均匀采样的特点,提出一新颖的视觉聚类分析算法,该算法对于解决聚类分析结果评价的有效性等有着重要的参考意义。随着生物科学技术在近几年的发展,产生了大量的生物数据。利用传统的生物实验方法将不能满足目前处理如此多生物数据的需要。在这种情况下,生物信息学应运而生。生物信息学是计算机科学与生物科学的交叉学科,成为目前研究的热点。诸多数据挖掘技术,如聚类分析、机器学习等,也成为生物信息研究中的重要内容。文章在分析了前人利用“无监督”模糊C均值聚类算法在预测分析蛋白质结构方面的缺陷的基础上,提出了一种“有监督”的聚类算法用来预测蛋白质结构。实验表明,利用了训练数据类别标号的“有监督”聚类算法的分类精度比“无监督”聚类算法有很大提高。通过这一点表明,在缺乏数据样本类别标号时,“无监督”聚类算法是一种优秀的分析工具,但如果先验知识预先知道训练样本的类别标号,采用“有监督”的学习算法将更加有效。在蛋白组学的研究中,一个重要的课题是如何离散化蛋白序列,从而能为计算机所识别处理。诸多实验表明,伪氨基酸离散模型比传统20-D氨基酸离散模型包含更多的序列顺序信息,因而大大地提高了各类算法在蛋白质属性上的预测分析精度。但如何确定伪氨基酸成分的维数一直是困扰各位研究人员的问题。本文提出了集成分类器框架方案,通过集成多个不同维数的伪氨基酸离散化模型,解决了维数选择问题,大量实验表明在大多数情况下,由于从不同角度抓住问题的核心,集成分类器比任何单一维数的分析精度都要高。随着生命科学、生命数据库的发展,近几年Gene Ontology(GO)数据库得到了长足的发展。GO数据库是一综合多种不同数据库的蛋白表达数据库。本文利用GO蛋白的离散模型预测分析蛋白亚细胞位置,由于GO离散模型更能反映蛋白亚细胞位置的特性,因此取得了比其他离散化模型更好的效果。另外,本文所建立的数据集覆盖了目前该领域研究中最多的亚细胞位置,大大扩大了该项研究的实际应用意义。为了更好地使广大生物学家应用本文生物信息学研究的成果,文章建立了多个在线生物信息预测分析网站,经不完全统计,已有来自美国、英国、荷兰、澳大利亚以及中国等世界各地的研究科学家通过互联网访问并使用所建立的在线生物信息服务网站,为科学研究的快速发展提供了强有力的支持。本文的创新性表现在:(1)提出高维核空间属性加权核聚类算法,并从理论上证明了收敛性;(2)讨论了合作聚类模型,该模型在研究实际社会中的关联模型上有重要意义;(3)通过模拟生物人眼非均匀采样的特点,提出一种新颖的视觉聚类算法;(4)提出基于“有监督”聚类算法的蛋白结构预测模型;(5)提出集成分类器框架模型,有效地解决了伪氨基酸蛋白离散模型的维数选择问题;通过在诸多应用对象、算法上的实验表明,该框架是切实可行的;(6)采用新型的GO蛋白离散模型分析预测蛋白亚细胞位置。该文所研究的细胞位置数目是目前该研究领域最多的,进一步加强了该研究的实际应用意义;另外,本文的研究涵盖了多个应用对象,如人类细胞、植物细胞、细菌细胞以及病毒等;(7)为了进一步加速研究成果的转化及应用,建立了多个在线生物服务网站。通过互联网,世界各地的科学家可以在线使用生物信息预测服务。