经验似然方法及基因表达调控网络应用

来源 :第三军医大学 | 被引量 : 0次 | 上传用户:caiyt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:经验似然是近几年兴起的一种非参数统计推断方法,由于其对模型假设条件较少,而且在许多方面有着参数似然的性质,因而在统计学的各个领域得到了广泛的应用。然而,该方法在数据分布拟合效果并不明确,而且计算过程尚有不足之处,我们在这方面进行了探讨。此外,我们研究发现对于重复测量数据的核平滑半参数模型,当固定设计矩阵维数超过2时会出现不可逆的情况,这会导致估计的不唯一,而经验似然对回归模型的误差变异的适应性提示我们可以引入经验似然估计来规避该问题。随着Bayesian方法的计算技术的不断改进,其应用日益广泛,从经验似然多方面与参数似然相似的性质促使我们将经验似然纳入Bayesian分析框架中,这方面的研究可以扩展经验似然进一步的应用。作为生物信息学一个重要研究方向——基因表达调控网络,已有众多的模型描述其过程,特别是结构方程的引入对参数的性质、结果的解释都提供了一个新的框架。然而,传统的结构方程对于误差项的限制较为严格,而且如何利用已有的生物学知识作为先验的扩展性还不够,而引入经验似然估计模型有可能解决这些问题。方法:我们的研究分三部分:①对Weibull分布的拟合,我们采用遗传算法与经验似然结合的方法,应用于不同参数和不同样本量的模拟数据,并比较最大似然和分位数估计;对于核平滑的半参数模型,我们结合岭方法与经验似然方法来估计其参数,并比较加入限制条件的最小二乘估计和经验似然估计的结果。②我们首先引入Bayesian分析的“合适似然”概念,并验证在不同条件下,经验似然能够作为Bayesian分析的“合适似然”的把握程度;接着,提出随机游走Metropolis算法计算经验似然后验分布,并考察其性质,主要对最大估计似然进行了讨论。进一步,我们采用经验似然的Bayesian分析方法研究线性回归模型参数的估计,提出了与Metropolis结合的Gibbs算法估计后验分布的参数,分别对同方差和变方差的模拟数据进行了计算。③我们利用7个时期人胎儿发育的中枢神经系统的10080个基因的芯片表达数据进行了结构方程模型的构建。首先筛选大脑皮质表达信息量最大的基因投射GO数据库,最终确定与发育功能相关的候选基因集。接着,我们采用线性回归模型的经验似然方法对参数进行估计,而模型结构的确定则采用遗传随机算法进行,并应用经验似然相关的AIC准则作为判断标准进行。此外,针对发育数据集我们先将基因表达分为平稳表达和突然表达两种模式,分别采用Lotka-Volterra方程和脉冲函数分别描述其相关基因的调控形式。结果:①对于Weibull分布的数据拟合,对于大样本模拟数据而言遗传算法+经验似然估计效果与最大似然估计相当,但与序列二次规划法的经验似然相比对初始值要求不高;而小样本估计效果两方法均不算好。关于重复测量的半参数模型,岭方法+经验似然估计可以解决估计矩阵不可逆的问题,其残差平方和比其他方法小,并且非参数项的估计优于其他方法。②经验似然函数能作为Bayesian分析的似然部分与样本量和估计参数有关系,在均数估计的情况下,样本量越大其作为“合适似然”函数的把握越大。利用这一结论,随机游走的Metropolis算法能够较好的模拟经验似然的后验分布,其模拟分布的正态性得到验证,所得到的后验分布的样本自相关性不高,并且后验分布的均值与最大经验似然估计相当。采用经验似然的Bayesian模型的线性回归模型参数的估计,对于同方差模拟数据Gibbs算法结果与最小二乘估计相当,而对于变方差模拟数据经验似然方法的表现更好些。③整理人胎儿发育的中枢神经系统基因芯片表达数据,通过GO数据库最终筛选出30个候选基因,经过500次循环的遗传算法计算,获得由9个基因组成的结构方程调控网络,其中基因ACTG1作为外源性变量对其他基因的表达起到了抑制作用。利用相同的候选基因集,我们构建了Lotka-Volterra方程调控网络,结果提示WASF1和DCX对NOS2的表达表现为抑制作用,DCX和PRKCB1对FHL1的表达有促进作用。最后,我们利用聚类方法从10080个基因中筛选出2302个可能“突然表达”基因,通过脉冲函数筛选出最有意义的四个基因:KIAA0332、PEG10、MYH11和FRAP1。结论:通过我们的研究结果,可得到如下结论:①对于大样本的参数模型经验似然拟合效果同最大似然估计相似,而利用遗传算法可以解决初始值的选择问题。而结合岭方法的经验似然方法可以能够解决估计矩阵不可逆的问题,并能作为核平滑半参数模型有效估计的方法。②在一定条件下,经验似然可作为Bayesian分析的似然部分,而随机游走的Metropolis算法可以利用这一结论求解最大经验似然估计。③结合经验似然的结构方程可以在模型中加入先验信息,并且可以放宽正态误差的限制。通过三个模型我们选择出基因(ACTG1,KIAA0332、PEG10、MYH11,FRAP1)和调控关系对(WASF1和DCX对NOS2,DCX和PRKCB1对FHL1)提示有意义,值得生物学的进一步探讨。
其他文献
目的:通过了解公众与医生群体对不同卫生健康领域热点事件的情绪与态度,分析其倾向与特点,为卫生健康管理部门开展针对性的舆论引导提供相关对策建议。方法:根据关键词分别抓
张启成先生是我国著名的诗经研究专家,在<诗经>研究领域有很深的造诣.他潜心研究<诗经>数十年,做了很多开拓性工作,发表了有关<诗经>的论文80余篇,出版专著两部,即<诗经人门>
近些年来,随着我国房地产业的快速发展,各地的房地产权属与市场管理工作也得到了较大的发展,取得了许多成绩.
玩具是幼儿成长的必备品,对幼儿的发展具有极其重要的价值。采用问卷调查法和访谈法,对3-4岁幼儿家长选购和管理玩具进行调查,发现:家长能够认识到玩具对幼儿的重要性,但关于
将《网页设计美工基础》课程与信息技术结合,是数字化时代的需要,是教育信息化发展的必然。通过教学分析,在课程的教学过程、考核评价等方面进行了探索性创新。
<正>腹腔镜胆囊切除术(laparoscopic cholecystectomy,LC)是目前治疗胆石症、胆囊炎、胆囊息肉等胆囊疾病的首选方法和标准术式[1],具有创伤小、出血少、恢复快等特点,在外科
花生是我国四大油料作物之一,也是主要创汇农产品之一,其市场价格高于水稻、小麦、大豆和油菜等粮食和其他经济作物,具有良好的经济效益,是有较强国际竞争力的农产品,多年来花生的
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
据对北京大米市场抽样调查,东北大米在北京品牌大米市场上占有率约78.7%,其中黑龙江大米约占47.5%;超市大米平均价格比批发市场高出60%左右;长粒米比普通粒形米价格高出10%左右;春、秋两