论文部分内容阅读
生物医学领域各种观测工具的出现,使得研究人员能够从宏观图像到微观基因不同尺度来观测目标的纵向信息,也可以在同一尺度下基于不同观测工具得到目标的横向多模态信息,使得从宏观图像到微观基因不同尺度来观测目标变为可能,从而极大的丰富了目标的描述信息。但由于观测工具分辨率、观察尺度等不同,这些数据具有很强的异构、高维、高噪声和海量特性,使得对此类数据的分析提出了前所未有的挑战。尽管如此,多源、多模异构生物医学数据描述能够提供目标不同侧面的信息,有望发现单源数据所不能发现的潜在信息,取得互补优势。从单源及多源生物数据中发现潜在的生物模块与分类研究是近年来生物信息学领域的前沿,将在未来带来更大的科学突破。这一方面的研究对于深入了解复杂的生物系统具有非常重要的意义。本文对单源及多源生物数据的模块发现和分类进行了研究。针对单源生物数据,提出多约束非负矩阵分解模型,从而找出其潜在的分块特性;针对乳腺表型图像,通过深度学习进行乳腺良恶性判断,分析微钙化和乳腺肿块特征对乳腺良恶性判断的影响;针对多源生物数据,考虑到数据的异构、高维、高噪声等特点,提出一种基于多源数据的关联模块寻找模型,用于发现多组学数据关联模块。主要研究的内容和创新点如下:(1)本文提出了一种用于发现生物数据潜在模块的多约束非负矩阵分解模型。针对数据含有隐含对角结构的情况,模型对于分解的特征矩阵加了稀疏范数约束,对负载矩阵的每一列进行全变分范数约束。我们给出了一种利用交替方向乘子法的高效数值算法求解提出的模型。在模拟数据中本章所提出的方法表现出了良好的鲁棒性和性能。在两个真实生物数据库上的实验结果,证明了该方法的有效性。该模型能有效地发现数据集中隐含的对角块结构,从而直接得到数据集的分块特性;(2)本文提出了一种基于深度学习的乳腺癌早期诊断模型。直接使用原始图像进行学习,可能会由于图像变形、背景光照、成像角度和位置不均匀等问题,而产生较大的偏差,这样的问题可能会恶化分类性能。为了解决这些问题,本研究对乳腺钼靶图片进行分割,参考乳腺病变研究中被广泛运用的特征,提取乳腺微钙化特征和乳腺肿块特征作为深度学习模型的输入数据,分别对乳腺微钙化特征数据和乳腺肿块特征数据进行单独分类,再考虑组合乳腺微钙化和肿块特征,对乳腺微钙化和肿块进行联合分析,通过实验我们发现对乳腺微钙化和肿块进行联合分析能明显提高乳腺癌的识别能力。深度学习的良好表现为帮助放射科医生做出准确判断提供了方法,从而进一步促进乳腺癌的早期发现、诊断和治疗;(3)本文提出了一种基于多源生物数据的关联模块寻找模型。近年发展起来的多模态基因组数据对数据分析提出了新的挑战,不同类型的基因组数据有不同的尺度和单位,它们不能简单地汇总起来进行分析。为了解决这个问题,引入张量相似性,用于度量关联模块的相关性。模型结合先验知识,将先验知识的表达形式转换为先验知识的约束,提出了结合先验知识的多源数据关联模块寻找框架,给出了高效数值算法求解提出的模型。我们在两组模拟数据上,验证了所提出的模型的鲁棒性和有效性,另外,我们在五个癌症数据上进行亚型的发现,对提出的模型所发现的亚型进行生存分析,来评估模型的性能。多源生物数据的关联模块寻找模型对帮助医生实现对肿瘤等疾病的个性化诊疗具有重要意义。