论文部分内容阅读
肿瘤的分型是指发现同一肿瘤的不同亚型。由于肿瘤的临床异质性,在临床上往往对于不同的肿瘤亚型采用不同的治疗策略。尽管如此,对于病理上相同的肿瘤亚型,相同的治疗方式往往导致肿瘤患者不同的预后。因此,发现正确的肿瘤亚型对于指导肿瘤的临床治疗和预后有着重要的作用。然而,目前基于细胞水平的病理肿瘤亚型分型仍然存在很强的异质性,而且常常导致错误分型和诊断。故而从更加精细的角度对肿瘤进行分型显得尤为迫切。近年来,随着基因芯片,二代测序等高通量技术的进一步发展,使得人们从整个基因组的角度全面剖析肿瘤成为可能。相对于基于细胞形态的病理数据,肿瘤的基因组数据对肿瘤的描述更加“精细”和全面。因此,从基因组数据出发对肿瘤进行分型将提供更多的关于肿瘤分子亚型的信息,为肿瘤的临床诊断和治疗提供更多的依据。聚类分析是肿瘤基因组分型的重要工具,其指将一群物理或抽象对象依据对象的某些特征分为由类似对象组成的多个更小的类的过程,这样的分类使得同一类中的对象彼此相似,而不同类中的对象彼此相异。由于使用的简易性以及实现工具的多样性,基于距离度量的经典启发式算法如K-均值算法,层次聚类算法等在生物医学研究领域非常流行。尽管这些聚类算法在很多领域都有成功的应用案例,但是其统计学性质往往不清楚,从而阻碍了基于这些算法的统计推断的发展。近年来,基于概率模型的聚类算法相对于启发式算法从统计的角度提供了一个更好的选择。模型聚类假设数据从潜在的混合模型(如:高斯混合模型)中生成。相对于启发式聚类算法,在混合模型聚类算法中关于类个数的选择问题成为一个统计模型的选择问题。尽管如此,当对高维小样本数据(如基于基因芯片和测序的基因组学数据)聚类时,由于混合模型需要估计的参数过多,而观测样本点又太少,从而导致所谓一系列“维度灾难”。因此,在此情形下降维成为不可回避的问题。基于此,本论文在混合共因子分析模型(mixtureofcommonfactoranalyzers:mcfa)的基础上,通过引入一个对载荷矩阵的惩罚项,提出了一个惩罚混合共因子分析模型(penalizedmcfa:pmcfa)并给出了模型参数估计的期望最大(expectationmaximum:em)算法和实现算法的r程序。数据模拟表明,引入的惩罚项能很好的对变量进行选择。在小圆蓝细胞瘤基因表达数据中的验证表明,pmcfa能通过其选择的35个信息基因准确区分四种不同亚型的小圆蓝细胞瘤。此外,我们还利用pmcfa详细分析了一个宫颈癌的微小rna(mirna)表达数据集。结果表明pmcfa选择了16个mirnas为信息mirna且基于这些mirnas发现了两个与宫颈癌预后相关的类。文献检索发现在这16个mirnas中hsa-mir-140-5p并未在宫颈癌中有过功能和机制报道。为了说明pmcfa所选择的变量的实际意义,我们进一步运用分子、细胞、动物实验研究hsa-mir-140-5p在宫颈癌细胞中的功能和潜在分子机制。实验表明hsa-mir-140-5p通过靶向igf2bp1(insulin-likegrowthfactor2mrna-bindingprotein1)抑制了宫颈癌的增殖、侵袭和转移。这些为从海量公共基因组学数据中发现潜在分型相关的基因或分子,并验证分子的生物学功能,进而为癌症靶向治疗提供更多方法和工具。本文分六章,第一章我们主要介绍高斯混合模型(gaussianmixturemodel:gmm)及其在高维数据聚类中的困难以及一些克服这些困难的方法。第二章我们提出了pmcfa模型然后给出了模型参数估计的期望最大(expectationmaximum:em)算法,并在模拟数据和真实肿瘤基因表达数据集上测试了该算法。此外,在本章我们还详尽分析了tcga(thecancergenomealtas)公共数据库中基于二代测序的宫颈癌mirna表达数据并发现了两个预后显著差异的宫颈癌mirna亚型。根据pmcfa对变量的选择和文献检索我们确定了下游功能实验的mirna。第三章我们给出了实验相关的材料和方法。第四章我们证实hsa-mir-140-5p通过靶向igf2bp1抑制宫颈癌细胞的增殖、侵袭、和转移。第五章我们研究了多形性胶质母细胞瘤(gbm)的信使rna(mrna)和miRNA的表达数据并鉴定出一个和GBM生存相关的整合了mRNA和miRNA的分子标签。第六章我们对论文做了总结和展望。