基于数据挖掘的生物序列聚类研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:cet1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着人类基因组计划的完成,生物学研究取得了重大突破,尤其是核苷酸序列研究的进步使得生物系统分类的基础发生了重大的变化,分类系统已经或正在随着分子标准的不断渗入而完善。所谓分子标准主要是指建立在核苷酸分析技术基础上的分类方法,它要求生物的序列化,以核苷酸序列为基础研究各种生物学中的重大问题。对数量巨大的核苷酸序列进行分析日渐成为目前生命科学研究的重点。数据挖掘正是一种能够从大量数据中提取有用的、具有潜在效用知识的技术,已经成为生物系统分类的有效方法之一。 针对生物序列聚类问题,本论文提出了一种新颖的序列聚类方法――数据场方法,论文着眼于序列聚类问题,从聚类问题的机理出发,分析人类的聚类行为,认为人类的聚类行为是一个动态聚类,这种动态性体现在人类可以从不同的观察角度来观看同一堆数据,从而得到不同的聚类结果。将人类的这种聚类行为建立在发现状态空间理论上,分析该空间中概念子空间和特征子空间内不同客体之间的非线性相互作用,引入物理学中场论的思想,产生了数据场方法。论文以数据场方法为理论基础,采用生物DNA序列作为聚类的数据,编程完成了该算法,结果表明该算法具有发现任意形状聚类、抗噪声等优点。 本文的研究内容主要包括以下几个方面: (1) 介绍了生物序列聚类研究的目的,描述了生物序列聚类的基本概念、国内外研究动态、应用领域及发展趋势。 (2) 对生物序列数据分析的常用聚类算法进行了讨论,包括k -均值算法、PAM算法、DBSCAN算法。复现了这几个不同的算法,讨论了各算法的优缺点并给出详细的实验结果与性能分析。 (3)提出了数据场的概念,对数据场的定义、各参数的意义都作了详细的探讨。 (4) 使用数据场方法实现聚类算法,该聚类算法提供对一维数据、二维数据的可视化聚类。 (5) 改进PAM 算法,将数据场的思想用在该算法中,使用该算法对生物序列进行有效聚类,并将该算法与传统的聚类算法进行比较,得出有关结论。 (6) 对论文研究工作进行回顾总结,并对进一步的工作进行展望。
其他文献
原子团簇的研究是凝聚态物理中的一个热门课题,而确定团簇的基态结构又是该领域中一项十分重要的基础性工作,因为团簇许多方面的性质都依赖于其基态结构。  现阶段,以实验
数据仓库系统中大量的细节级数据是联机分析处理和数据挖掘应用程序的基础和重要操作对象,为了保证当前的联机分析处理和数据挖掘应用程序的效率和质量,过期的大量的细节级数据
网络电话作为一种新生的可选通讯方式凭借其高性价比和丰富的增值业务得到了广泛的关注。随着互联网的发展使得VoIP技术得到越来越广泛的应用,并将逐步取代传统的PSTN网络。S
随着网络的普及和网络带宽的逐步提高,在网络上传输复杂的三维场景数据或视频数据逐渐成为可能,掀起了网络可视化应用的热潮。网络环境中,图形技术与Web 服务相结合,建立基于SOA
作为电信运营商维护管理系统的一个重要手段,动力环境监控系统其功能的完善对于提高服务质量具有很高的经济价值。本文分析了非智能化动力环境监控系统中存在的一些问题,针对
嵌入式技术与Internet技术的发展与结合,促成了嵌入式Internet技术的诞生。随着计算机硬件、软件、通讯技术的迅速发展,尤其是网络的广泛使用,需要嵌入式系统的应用跨网段、
随着网络教育的发展,网络教育资源飞速增长,海量的教育资源既为网络教育带来了强大的服务功能,也为资源的建设与管理带来了新的挑战。由于资源建设缺乏统一完善的标准,导致网络上
物联网被称为继计算机、互联网之后世界信息产业发展的第三次浪潮,在我国它同样引起了政府、企业和学术界的高度关注。然而,目前还没有非常好的实验平台来进行物联网实验。去
无线传感器网络是当前一个热门的研究领域,已被广泛应用到各种领域。在无线传感器网络中,传感器节点的主要任务是收集、保存数据,并通过多跳方式将数据传输到汇聚节点。然而
宝钢公司不锈钢分公司从投产至今二十余年所积累的在线质量监控数据是一个不可多得的“宝库”,但一直没有从中挖掘,造成在产品的质量管理中对产品缺乏定量的、权威性的、有科