论文部分内容阅读
可变剪接机制对于基因表达的调控和蛋白质的多样性都有很大的贡献,一般认为可变剪接与很多疾病的诊断与治疗相关,因此,了解基因的可变剪接能给药物设计与临床诊断带来很大帮助。外显子芯片(ExonArray),这一以外显子为研究核心的芯片,能够直接测量已知与预测外显子的表达水平,从而为研究基因的可变剪接提供了良好的平台。如何从外显子芯片数据中有效提取信息,并在此基础上预测可变剪接事件是一件很有意义的工作。虽然这个问题逐渐为人所关注,但由于外显子芯片比一般的表达谱芯片复杂,目前尚没有广为接受的方法。
本文在变量选择的框架内分析外显子芯片数据,通过定义能衡量可变剪接的变量,用选择变量的方式寻找可变剪接事件。考虑可变剪接在基因层面的效应和具体可变外显子的特点,我们引入了分层结构加以刻画,并在基因和外显子两个层面上同时采用LASSO类型的控制来进行变量选择,既挑选出可能发生可变剪接的基因,又同时定位到可变外显子上。交互迭代的方法使得计算能够比较快速的实现。文中用一个简单的例子反映分层变量选择的方法能更有效地综合可变外显子之间的相关性,并使整个基因更为显著。针对样本数量少的问题,我们采用了逐批挑选并对基因排序的做法。几组模拟数据的分析说明文中采用的方法能够处理不同的情况,真实数据的计算结果显示这种方法对于分析外显子芯片以确定可变剪接事件是行之有效的。