基因表达数据聚类分析

来源 :南京航空航天大学 | 被引量 : 12次 | 上传用户：xincuntianxia

【摘要】

：

随着微阵列技术的广泛应用，越来越多的基因表达数据被获取，如何从海量的数据中提取有生物学意义的信息，是目前生物信息学的一个重点研究方向。功能相近的基因其表达模式相似

【作者】

：

易辉

【机构】

：

南京航空航天大学

【出处】

：

南京航空航天大学

【发表日期】

：

2007年01期

【关键词】

：

基因表达表达数据聚类分析表达模式聚类算法主成分分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着微阵列技术的广泛应用，越来越多的基因表达数据被获取，如何从海量的数据中提取有生物学意义的信息，是目前生物信息学的一个重点研究方向。功能相近的基因其表达模式相似，通过对相似表达模式的发现可推测未知基因的功能。聚类算法是一种对无监督数据根据其相似性进行划分的数据挖掘方法，它能把相似的数据归为一类；在用聚类算法对基因表达数据进行处理时，它可将表达模式相近的基因聚为一类，从而进一步推测基因的功能和发现基因间的相互关系。但是，聚类算法本身是一种主观性非常强的算法。选择不同的聚类算法，设定不同的起始点或簇数，都会导致不同的聚类结果。这导致对基因表达数据进行处理时，得到的结果也具有很大的主观性。目前，基因表达数据聚类分析的关键是如何有效的使用现有的聚类方法，降低其分析过程的主观性，从而对基因表达数据进行客观地划分。针对基因表达数据聚类分析相关问题，本文主要做了如下工作： (1)原始基因表达数据中经常会因为各种原因存在大量的缺失值，这些缺失值影响了聚类的结果。本文采用广义回归神经网络的方法对这些缺失值进行填补。 (2)采用多种聚类方法对基因表达数据进行分析；介绍一些聚类前沿算法；对聚类结果与数据空间分布的关系进行探讨。 (3)不同数据空间分布的基因表达数据应该采用不同的聚类算法，然而基因表达数据是高维的，无法直接判断其空间分布。本文将聚类结果的稳定性作为一个评估参数，提出基于稳定性的聚类算法选择方法。 (4)针对同一组数据，采用同一种聚类算法，每次得到的聚类结果往往也是不同的，这是因为聚类起始点的选取不一样。起始点的设置会影响聚类收敛过程中陷入局部最小的可能性以及稳定所需的迭代次数。本文提出采用主成分分析的方法对基因表达数据聚类起始点进行设置。

其他文献

基于TRIZ理论的大庆老产油区r生态重建问题的研究

基于TRIZ理论提供的解决问题的思考模式,我们对大庆油田老产油区生态重建问题进行了思考,运用理想化方法,确立生态重建问题的目标;借鉴矛盾冲突化解法,探索推动老产油区环境

期刊

生态重建TRIZ理论IFR技术矛盾矩阵

南昌市社会变迁中的文化传承与空间活力提升研究r——以八一广场为例

提升八一广场的空间活力,可以提高空间的吸引力和利用率,才能更好地进行文化传承.南昌八一广场纪念空间作为南昌重要地标是为了缅怀先烈、延续民族精神而建,肩负爱国主义教育

期刊

八一广场活力提升文化传承

唐“白画”辨

＂白画＂是唐代人物画创作中的一个特定概念。由于＂白画＂与＂白描＂在形态上颇有相似处,往往导致当代美术研究领域对这两者在概念上的混淆。

期刊

人物画创作特定概念白描线描《历代名画记》吴道子当代美术张彦远赵景公寺画史

资助育人r——扶智更要扶志

资助育人工作是贯穿学生学习生涯的重要组成部分,是促进学生成长成才的重要手段.我国已经建立了一套较为完整的国家助学体系,政府“不让一名学生因家庭经济困难而失学”的庄

期刊

资助扶智扶志

高校购买社会服务项目中第三方评估结果的r有效性分析

高校购买社会服务就是将直接由高校负责并提供的公共事项直接交给社会等力量进行承担.我国在借鉴西方先进的经验基础上,高校购买社会服务项目已经成为一种社会趋势.为实现社

期刊

第三方评估社会服务项目高校有效性

把好“脉”造好“血”,强健“体魄”抓效率——浅谈提高报纸投递时效问题

台州市,位于浙江省沿海中部,依山面海,大陆海岸线745千米,占浙江省的28%。市区由椒江、黄岩、路桥3个区组成,辖临海、温岭2个县级市和玉环、天台、仙居、三门4个县。台州日报

期刊

台州台州晚报大陆海岸线依山面海椒江发行站时效问题黄岩县级市仙居

亚洲棉GaPP2C24基因的克隆及表达分析

PP2C是一大类重要的蛋白磷酸酶,广泛参与不同的逆境胁迫响应.为了解PP2C基因在干旱响应中的功能,以亚洲棉石系亚1号为材料,利用RT-PCR方法从中克隆了GaPP2C24基因,并对该基因

期刊

亚洲棉GaPP2C24基因克隆干旱胁迫表达分析

基因表达数据聚类分析

其他学术论文