基因表达数据聚类分析

来源 :南京航空航天大学 | 被引量 : 12次 | 上传用户:xincuntianxia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微阵列技术的广泛应用,越来越多的基因表达数据被获取,如何从海量的数据中提取有生物学意义的信息,是目前生物信息学的一个重点研究方向。 功能相近的基因其表达模式相似,通过对相似表达模式的发现可推测未知基因的功能。聚类算法是一种对无监督数据根据其相似性进行划分的数据挖掘方法,它能把相似的数据归为一类;在用聚类算法对基因表达数据进行处理时,它可将表达模式相近的基因聚为一类,从而进一步推测基因的功能和发现基因间的相互关系。 但是,聚类算法本身是一种主观性非常强的算法。选择不同的聚类算法,设定不同的起始点或簇数,都会导致不同的聚类结果。这导致对基因表达数据进行处理时,得到的结果也具有很大的主观性。目前,基因表达数据聚类分析的关键是如何有效的使用现有的聚类方法,降低其分析过程的主观性,从而对基因表达数据进行客观地划分。 针对基因表达数据聚类分析相关问题,本文主要做了如下工作: (1)原始基因表达数据中经常会因为各种原因存在大量的缺失值,这些缺失值影响了聚类的结果。本文采用广义回归神经网络的方法对这些缺失值进行填补。 (2)采用多种聚类方法对基因表达数据进行分析;介绍一些聚类前沿算法;对聚类结果与数据空间分布的关系进行探讨。 (3)不同数据空间分布的基因表达数据应该采用不同的聚类算法,然而基因表达数据是高维的,无法直接判断其空间分布。本文将聚类结果的稳定性作为一个评估参数,提出基于稳定性的聚类算法选择方法。 (4)针对同一组数据,采用同一种聚类算法,每次得到的聚类结果往往也是不同的,这是因为聚类起始点的选取不一样。起始点的设置会影响聚类收敛过程中陷入局部最小的可能性以及稳定所需的迭代次数。本文提出采用主成分分析的方法对基因表达数据聚类起始点进行设置。
其他文献
基于TRIZ理论提供的解决问题的思考模式,我们对大庆油田老产油区生态重建问题进行了思考,运用理想化方法,确立生态重建问题的目标;借鉴矛盾冲突化解法,探索推动老产油区环境
该文利用杂交边界点法对简支薄板的热弹性弯曲进行了分析计算.采用薄板的热弹性理论,通过薄板的修正变分原理建立了各向同性薄板的边界局部积分方程,域内变量使用基本解插值,
提升八一广场的空间活力,可以提高空间的吸引力和利用率,才能更好地进行文化传承.南昌八一广场纪念空间作为南昌重要地标是为了缅怀先烈、延续民族精神而建,肩负爱国主义教育
通过对张掖造纸废水流经灌区不同点进行微型生物监测得知,废水灌区微型生物共有37种,其中藻类10种,原生动物27种。37种微型生物均属多污性、α-中污性或β-中污性种类,对灌区农作
"白画"是唐代人物画创作中的一个特定概念。由于"白画"与"白描"在形态上颇有相似处,往往导致当代美术研究领域对这两者在概念上的混淆。
资助育人工作是贯穿学生学习生涯的重要组成部分,是促进学生成长成才的重要手段.我国已经建立了一套较为完整的国家助学体系,政府“不让一名学生因家庭经济困难而失学”的庄
高校购买社会服务就是将直接由高校负责并提供的公共事项直接交给社会等力量进行承担.我国在借鉴西方先进的经验基础上,高校购买社会服务项目已经成为一种社会趋势.为实现社
台州市,位于浙江省沿海中部,依山面海,大陆海岸线745千米,占浙江省的28%。市区由椒江、黄岩、路桥3个区组成,辖临海、温岭2个县级市和玉环、天台、仙居、三门4个县。台州日报
PP2C是一大类重要的蛋白磷酸酶,广泛参与不同的逆境胁迫响应.为了解PP2C基因在干旱响应中的功能,以亚洲棉石系亚1号为材料,利用RT-PCR方法从中克隆了GaPP2C24基因,并对该基因
结合新集集团公司的生产调度计算机网络系统的论证及建设情况,详细介绍了其系统组成、特点及功能。 Combined with the demonstration and construction of the production s