论文部分内容阅读
基因数据具有唯一性,难以仿制性,也被视为是一种生物特征。计算机信息技术的发展带来的高通测序技术的进步为实现癌症的精准医疗提供了数据基础,通过对基因组数据的分析实现对癌症患者子型的划分,探索相应的癌症分子生物标志物是攻克癌症的关键。现阶段大部分对于癌症分子子型的研究都是基于单一基因组学也就是单一模态的数据,特别是转录组数据进行的。考虑到基因调节不同层次上的分子的异质性,仅仅使用转录组数据并不一定能观测到完全的生物学特征。而且癌症分子学子型的划分只适用于转录组学mRNA数据,对于其他组学数据诸如miRNA数据,则无法利用分子学子型的有关信息。所以本文尝试将耦合度量学习中的典型相关性分析(CCA)方法,经过改进后应用到生物信息学领域,实现对多模态分子生物学数据的融合,建立起多模态分类器,并使用已有标签的结直肠癌的两种基因组学数据:mRNA和miRNA数据进行验证。
本文的主要研究工作如下:
1.本文首先介绍了癌症的危害性,以及现阶段癌症治疗存在的一些问题,通过对癌症起因和目前全球癌症的整体描述,展示了精准治疗的重要意义。接着介绍了目前基于基因组数据的癌症的研究的现状,讨论了癌症分子学子型与临床精准治疗的关系,对融合多模态数据的癌症分类的必要性做了阐述。
2.简单描述了用于方法验证的癌症基因数据集的建立,主要包括基因数据的获取,对数据缺失值的处理,基于表达变异对数据的筛选和对数据的标准化方法,并对本文所使用到得分类器和Wilcoxon秩和检验进行了介绍。
3.对传统典型相关性分析算法进行了介绍,并针对其潜在的高维数据不可逆的问题进行改进,使用改进的典型相关性算法和多种特征融合方法进行对比实验,选出效果最好的特征融合方法和分类器的组合,使用建立的多模态分类器对多模态数据和单模态数据的分别进行分类,将结果进行比对。
4.从聚类的角度出发,尝试从数据角度对结直肠癌样本添加标签,通过改进的典型相关性算法利用多模态数据和特征融合,建立起多模态分类器,并使用留一法交叉验证对比了样本在聚类标签和癌症分子学子型标签下的识别率,进一步验证了多模态分类器的有效性。
本文提出的从癌症基因组数据角度出发,使用改进的典型相关性算法对多模态数据进行融合的思想,为综合利用癌症基因组学数据提供了新的思路。本文通过多组实验选取了最适合于数据的预处理方式,特征融合方法和分类器设计,并验证了多模态分类器的有效性。针对目前癌症分子学子型分类只适用于转录组学的现状,通过多模态分类器可以在一定程度上实现对其他基因组学数据的分类,对于综合利用多模态信息对癌症进行进一步研究具有重要意义。
本文的主要研究工作如下:
1.本文首先介绍了癌症的危害性,以及现阶段癌症治疗存在的一些问题,通过对癌症起因和目前全球癌症的整体描述,展示了精准治疗的重要意义。接着介绍了目前基于基因组数据的癌症的研究的现状,讨论了癌症分子学子型与临床精准治疗的关系,对融合多模态数据的癌症分类的必要性做了阐述。
2.简单描述了用于方法验证的癌症基因数据集的建立,主要包括基因数据的获取,对数据缺失值的处理,基于表达变异对数据的筛选和对数据的标准化方法,并对本文所使用到得分类器和Wilcoxon秩和检验进行了介绍。
3.对传统典型相关性分析算法进行了介绍,并针对其潜在的高维数据不可逆的问题进行改进,使用改进的典型相关性算法和多种特征融合方法进行对比实验,选出效果最好的特征融合方法和分类器的组合,使用建立的多模态分类器对多模态数据和单模态数据的分别进行分类,将结果进行比对。
4.从聚类的角度出发,尝试从数据角度对结直肠癌样本添加标签,通过改进的典型相关性算法利用多模态数据和特征融合,建立起多模态分类器,并使用留一法交叉验证对比了样本在聚类标签和癌症分子学子型标签下的识别率,进一步验证了多模态分类器的有效性。
本文提出的从癌症基因组数据角度出发,使用改进的典型相关性算法对多模态数据进行融合的思想,为综合利用癌症基因组学数据提供了新的思路。本文通过多组实验选取了最适合于数据的预处理方式,特征融合方法和分类器设计,并验证了多模态分类器的有效性。针对目前癌症分子学子型分类只适用于转录组学的现状,通过多模态分类器可以在一定程度上实现对其他基因组学数据的分类,对于综合利用多模态信息对癌症进行进一步研究具有重要意义。