论文部分内容阅读
随着研究者对疾病和基因之间关系的探讨性研究,两者间的关联逐渐为人们所认知,尤其基因测序技术和计算机技术的发展更是极大促进了研究的深入。高通量测序技术的不断发展,使研究者们可以获取更多的人类正常和疾病的基因表达数据。计算机技术也在不断发展,学者们可以借助计算机强大的计算能力和算法来分析这些数据。由于人类的基因数量巨大,miRNA作为调控这些基因表达的非编码RNA,其与基因的关系非常复杂。当前基因样本数目高达两万多维,随着维数的增加,获取基因与miRNA之间的关系的难度也随之增加。近年来关于基因和mi RNA之间关系的研究成为生物信息学的一个热点。研究者们发现众多疾病间存在很多共性,比如某些基因和mi RNA在多种疾病中都有相似的表达,需要通过一定方法识别这些疾病中相关的mi RNA和基因的调控关系。因此,研究疾病共性的基因和mi RNA及其调控网络,成为目前亟待解决的问题,在此背景下,泛癌计划(PanCancer)应运而生,旨在研究多种疾病间共性的机理。本文针对多种癌症中miRNA和基因之间的关系进行了研究,以PanCancer项目给出的数据为对象,基于mi RNA和基因之间的靶定关系,提出了一种利用多种基因测序数据发现mi RNA调控网络的方法。论文取得的创新性成果如下:1.提出了一种构建mi RNA调控网络的方法------DCMM(DNA methylation,Copy Number,miRNA,mRNA)。DCMM算法利用线性回归整合多种基因测序数据,具体包括DNA甲基化、拷贝数、miRNA以及mRNA数据。相比仅利用mRNA表达数据的方法,DCMM综合考虑了DNA甲基化和拷贝数对基因表达的影响,可以更加精确地估计miRNA和mRNA之间的调控关系,建立可信度更高的网络。另外,DCMM算法中还利用localfdr和ClusterONE对数据进行分析处理,进一步挖掘数据中隐含的信息。2.将DCMM用于TCGA提供的12种癌症,对每种癌症的DNA甲基化数据、拷贝数数据、miRNA数据和mRNA数据进行分析,找出miRNA-mRNA匹配对,并构建mi RNA调控模块及调控网络。3.将得到的mi RNA调控网络数据与PPI网络数据相结合,通过找到miRNA调控网络与PPI网络的交集,建立miRNA-mRNA调控模块,根据miRNA-mRNA调控模块,分析基因的生物学通路和致病机理。实验发现,调控模块中基因所富集的信号通路都与癌症的发生过程存在着直接或间接关系,进一步从侧面验证了本文所提方法的有效性。本文提出的DCMM算法可以扩展用于其他复杂疾病的分析,为复杂疾病的生物靶向治疗、致病机理及风险预测提供借鉴。