寻找差异基因的概率方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:lihua1114110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在目前医学及生命科学研究中,基因芯片被广泛用来进行各种生物实验。其中寻找差异基因在芯片实验中是最基本的实验目的,它在基因诊断、药物筛选等方面有着重要作用。由于芯片实验是复杂多步骤的实验过程,产生的基因表达数据包含了大量噪音,另外重复芯片个数太少和基因表达测量值精度低等多方面影响,使得寻找差异基因非常困难。目前的许多方法仅仅利用重复芯片的基因表达数据的点估计来寻找差异基因。而广泛使用的Affymetrix基因芯片利用多探针技术在提供了基因表达值的同时也提供了获得基因表达值测量误差的可能。而概率方法能够自然的结合基因表达值和测量误差。最近提出的概率方法PPLR同时考虑了基因的表达值和测量误差,提高了寻找差异基因的精确度。但是PPLR方法在变分EM算法中采用了重采样近似计算技术,导致了较低的计算效率。本论文改进现有的PPLR模型,获得一个计算效率和计算精度更高的新模型IPPLR。IPPLR模型采用多层贝叶斯理论,在同时考虑基因的表达值和测量误差的情况下,在原有PPLR模型中增加一层隐含变量,代表每个基因的真实表达值,利用变分EM算法估计模型中的参数,算法中每步计算都能得到解析解,从而克服了PPLR中低效的重采样过程。通过GoldenSpike-in标准数据集和真实的Mouse Embryo数据集验证,IPPLR模型相比已有模型能同时提高计算精确度和计算效率。进一步验证在大规模数据集,Mouse Hair数据集和Mouse Colitis数据集上,IPPLR模型能大幅度的提高计算效率,而且随着芯片的数目增加,计算效率的提高更加明显。为了提供给全球所有生物学家使用,IPPLR模型已经被实现成R语言包,ipplr,可以从http://parnec.nuaa.edu.cn/liux/zhangl下载,同时ipplr也被包含到Bioconductor的基因表达数据概率方法分析软件包puma中。
其他文献
人脸给人们提供了大量的信息,从而受到了广泛的关注。本文从人脸特征分析以及人脸区域定位两个方面进行了研究。如何有效地从人脸图片中提取人脸特征一直是一个难题。由于图
本体的引入,屏蔽了由于知识系统建造者不同而造成的在领域概念理解上的差异,为解决知识系统中知识共享与重用提供了一条新的思路,同时为机器能自动理解语义提供了有力的支持
学位
软件定义网络(SDN)被看作是用于网络管理的最佳解决方案,因为它可以根据网络全局状态对网络进行灵活地、合理地控制。然而,由于SDN网络的部署成本高、网络服务不完善、协议兼
随着全球信息资源的数字化进程日益加快,以及电子商务、电子政务的日趋流行,对网上发行的电子刊物进行盗版追踪,对来往的电子信函、公文或传真进行完整性认证变得曰益紧迫。
工作流技术可以有效地优化企业的业务流程,提高企业业务流程的灵活性。但是传统的工作流技术却不能将不同的系统进行有效地集成,或者使业务流程集成的实现非常复杂。而面向服
多机器人系统是目前机器人研究领域的热点问题,是机器人学、控制理论、计算机技术、通信技术、电子技术和人工智能等多个技术学科交叉的产物。在多机器人相关技术的研究中,路
随着计算机技术、无线通信技术和微电子技术的发展和成熟,无线传感器网络逐渐成为收集和处理海量数据的重要途径。在无线传感器网络中,大量部署在特定区域内的集感知、计算和
电子邮件自从产生以来,就给人们的工作生活带来了极大的方便,然而随之而来的垃圾邮件问题也越来越严重。垃圾邮件不仅占用大量的网络资源,同时也严重危害着人们的利益,给人们
人脸三维模型编辑是人脸造型重要手段之一。设计者通常采用手工作业将已有人脸模型编辑成理想人脸形状。但是,这种编辑模式并不适用于面向普通用户。对于普通用户来说,最简单有
随着计算机网络的迅速发展,计算机网络已经渗透到了社会的各个方面。在人们的日常生活中,计算机网络也变得越来越重要。近年来,由于网络规模的不断扩大和复杂性的不断增加,如