微阵列数据的差异基因筛选方法研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:gaoruizhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的] 微阵列数据是指由基因芯片获得的基因表达数据。对基因表达数据的分析,其重要任务之一是筛选差异表达基因,即通过比较正常和疾病状态下基因转录及表达的差异,研究疾病的发生机理、进行疾病的早期诊断及治疗。对基因表达数据分析的主要困难是相对于给定的样品数目,基因的数量过于庞大,用传统的统计方法对“差异基因”进行鉴别会产生大量的假阳性结果。本项研究针对这一问题,在充分复习基因表达数据筛选的新方法及其研究进展文献的基础上,对多种差异基因筛选方法进行理论与实际应用的研究,并在此基础上试图给出新的统计分析方法。 [内容]①FC法、t检验、SAM法、稳健t检验、SAMROC法的原理、适用性及特点,同时选用一种基于随机森林的差异基因筛选方法作为对比;②FDR方法的原理、适用范围和估计的准确性;③基于小波变换理论的基因筛选方法;④差异基因筛选方法的软件实现。其中基于小波变换理论的基因筛选方法是本文提出的一种新方法,其主要思想是利用多尺度算法对聚类后的数据作适当的变换和分解,有效减少由随机波动引起的误差。 [方法]根据基因表达谱分子生物信息的特点,采用统计学和计算机相结合的技术,利用公开的生物信息数据库,选择具有典型意义的样本数据,通过对实际样本的分析,提取数据的分布及相关特征,建立相应的统计分析模型;同时用计算机模拟的方法,利用R和Matlab两种语言开发主要计算和模拟实验用的程序,针对不同类型的数据进行分析和评价,探索基因表达数据分析的新方法。 [结果]主要研究结果如下: 1.除FC法外其他方法对变量的分布类型均有较强的适应能力。在多数情况下SAM法和稳健,检验表现出了最优的筛选能力,SAMROC法则表现出更好的稳定性和较优的筛选能力;基于随机森林的差异基因筛选方法尽管能够同时考虑多个基因的相互作用,但由于受到大量无差异基因表达的随机干扰,筛选的效果不够稳定和理想,但是在两组间变异相差较大的情况下显示出较其他方法更优良的特性。 2.差异基因的假发现率FDR(pava FDR)估计的准确性与采用的筛选方法、无差异基因在所有基因中所占比例π<,0>的估计是否准确、分界阈值(“差异基因数目”)的选择以及真实的FDR值有一定的关系。模拟实验表明,根据样本估计出的FDR与真实FDR呈明显的线性关系,但变异较大。 3.通过模拟实验,初步确认了小波变换方法在差异基因筛选上的有效性,基于小波变换的SAM方法明显优于普通的SAM法。 [结论] SAM、稳健t检验和SAMROC三种方法可以有效地用于差异表达基因的筛选,但适用条件有所不同;FDR估计具有重要的实际意义,文中所用的估计方法有效而实用。由于基因表达具有一定的相关,利用基于小波变换的基因筛选方法,更易于得到有生物学意义的差异表达基因。
其他文献
秀丽隐杆线虫是一种重要的模式生物,已广泛应用于生物医药、农业和植物方面的研究,但线虫体态微小,常规方法难以实现对单条线虫的精准操控和长期追踪.本研究基于微流体控制技
當卡通人物走进便利店,他们会买什么呢?插画师linda bouderbala脑洞大开,疯狂联想,大白为防漏气,买胶带;汤姆猫为了抓住杰瑞,买了捕鼠夹;小黄人买的当然是香蕉啦……  开心AB项  规则:在下边一组手工作品中,选出你最喜欢的一项,A或B,加入QQ群:417386086,发送消息:“《学霸日记》11期——开心AB组投票:选A/B。”就可以为你喜欢的作品投票啦!  趣味知识问答  谁是发明
期刊
期刊
期刊
期刊
期刊
从我国水电厂计算机监控系统的现状出发,结合监控技术发展趋势,提出了大中型水电厂的现地单元、电站以及梯级调度的计算机监控系统的功能要求。 Based on the current situati
K-L变换是均方误差准则意义下的最佳交换,是心电地图数据压缩的重要方法.但K-L变换的常规算法计算量大,目前又无快速算法,实现困难.本文采用人工神经网络算法来实现K-L变换,并将其应用于心电
【背景】居民营养与健康状况是反映一个国家或地区经济与社会发展、卫生保健水平和人口素质的重要内容,也是评价城乡居民收入水平、生活质量和健康改善的客观指标。但我国于19
期刊