论文部分内容阅读
数以万计的生物体活细胞中的基因在正常情况下会沿着对应的固定模式进行基因表达,但是细胞进入疾病状态时,基因发生突变,基因的表达模式出现异常化,这就是所谓的基因差异表达。探索肿瘤细胞中的差异表达基因可以获得基因中蕴含的丰富的信息。基因芯片技术被广泛应用到生物医学研究领域,它可以同时获得成千上万的基因在不同情况不同状态下的基因表达谱,该基因表达谱数据中蕴含着丰富的基因活动信息。目前临床上治疗肿瘤的有效手段之一就是放射治疗,例如大约有70%的癌症病人在癌症治疗的过程中需要使用放射治疗,其中大约有40%的癌症可以用放疗根治。大量研究发现,肿瘤患者对放疗的反应情况主要是取决于患者个体固有的放射敏感性,肿瘤本身固有的放射敏感性与辐射诱导的基因表达和基因调控有关系。所以,找到的肿瘤放疗敏感基因可以确定哪些病人适合放疗和所应用的放射的剂量,从而大大提高肿瘤放射治疗的效果。肿瘤基因表达谱数据具有高维度和小样本的特点。识别放疗敏感基因,不仅可以挖掘潜在的基因信息,而且有助于我们了解癌症等疾病的发病发展机制,也能在临床上提高肿瘤放疗疗效。本论文侧重于识别放疗敏感基因的计算方法,主要工作体现在如下几个方面:首先,我们开发了两个基于约束回归的方法,非负最小二乘法(NNLS)、弹性网法(Elastic Net),两个基于网络的方法,KEGGSDRW、PPISDRW方法,来识别肿瘤放疗敏感基因。考虑到基因表达的非负性,通过NNLS得到的非负最小二乘解比普通最小二乘的解更有意义。Elastic Net是近来发展起来的一种回归方法,Elastic Net的惩罚项同时包含L1惩罚项和L2惩罚项,既能实现变量压缩又能处理共线性的参数估计问题。基于先验网络信息的KEGGSDRW方法和PPISDRW方法,是结合定向随机游走(DRW)与Spearman相关系数来建立的。DRW遍历整个网络,其可以评估网络拓扑结构中每个基因的重要性。第二,在NCI-60基因表达数据上,我们应用上述方法得到肿瘤放疗敏感基因。对各个方法分类性能预测进行研究,结果表明Elastic Net、KEGGSDRW和PPISDRW方法识别的基因的分类性能预测较佳。第三,基于超几何分布进行通路富集分析。结果显示基于先验网络信息的方法在疾病相关通路富集性方面表现出较大优势,即基于网络的方法得到的显著富集通路大多数是集中在人类疾病功能模块。为了进一步验证结果的有效性和可靠性,我们对上述方法识别出来的肿瘤放疗敏感基因进行关联富集分析。结果表明通过这些方法识别出来的肿瘤放疗敏感基因的基因相关性是显著富集的。本文最后对文章做出总结,指出了目前肿瘤放疗敏感基因检测分析研究中存在的一些问题和以后研究中需要做的工作。