论文部分内容阅读
近年来随着人类基因组计划的完成,生物学研究取得了重大突破,尤其是核苷酸序列研究的进步使得生物系统分类的基础发生了重大的变化,分类系统已经或正在随着分子标准的不断渗入而完善。所谓分子标准主要是指建立在核苷酸分析技术基础上的分类方法,它要求生物的序列化,以核苷酸序列为基础研究各种生物学中的重大问题。对数量巨大的核苷酸序列进行分析日渐成为目前生命科学研究的重点。数据挖掘正是一种能够从大量数据中提取有用的、具有潜在效用知识的技术,已经成为生物系统分类的有效方法之一。
针对生物序列聚类问题,本论文提出了一种新颖的序列聚类方法――数据场方法,论文着眼于序列聚类问题,从聚类问题的机理出发,分析人类的聚类行为,认为人类的聚类行为是一个动态聚类,这种动态性体现在人类可以从不同的观察角度来观看同一堆数据,从而得到不同的聚类结果。将人类的这种聚类行为建立在发现状态空间理论上,分析该空间中概念子空间和特征子空间内不同客体之间的非线性相互作用,引入物理学中场论的思想,产生了数据场方法。论文以数据场方法为理论基础,采用生物DNA序列作为聚类的数据,编程完成了该算法,结果表明该算法具有发现任意形状聚类、抗噪声等优点。
本文的研究内容主要包括以下几个方面:
(1) 介绍了生物序列聚类研究的目的,描述了生物序列聚类的基本概念、国内外研究动态、应用领域及发展趋势。
(2) 对生物序列数据分析的常用聚类算法进行了讨论,包括k -均值算法、PAM算法、DBSCAN算法。复现了这几个不同的算法,讨论了各算法的优缺点并给出详细的实验结果与性能分析。
(3)提出了数据场的概念,对数据场的定义、各参数的意义都作了详细的探讨。
(4) 使用数据场方法实现聚类算法,该聚类算法提供对一维数据、二维数据的可视化聚类。
(5) 改进PAM 算法,将数据场的思想用在该算法中,使用该算法对生物序列进行有效聚类,并将该算法与传统的聚类算法进行比较,得出有关结论。
(6) 对论文研究工作进行回顾总结,并对进一步的工作进行展望。