论文部分内容阅读
随着科学技术的迅速发展,在各个应用领域中涌现出大量的复杂数据(包括图像数据,视频数据,基因组学数据等)。在大数据时代,虽然数据的总量巨大,但是各个数据都具有各自的结构特点并表达着不同的信息。如何利用数据的内在结构信息寻找某些条件下的稀疏表示形式成为众多工程应用领域共同关注的问题。稀疏的含义不仅是指只有很少的非零分量,它还意味着存在一种简单结构。在机器学习,数据挖掘,图像处理,数据整合等领域,由于数据在一定条件下的稀疏表现形式被广泛的发现而产生了大量基于稀疏优化的模型。这些模型在解决实际问题时发挥着巨大的作用,也因此成为近年来的研究热点。本文旨在利用稀疏优化思想在遥感图像条带噪声去除、染色体图像分类、生物信息数据整合三个问题中建立模型,设计算法解决相应问题。论文的主要内容为:1.针对遥感图像去条带噪声问题,提出一个基于变分的稀疏正则化模型。该模型结合单向全变分和二阶全变分来各自发挥它们的长处。例如,单向全变分可以利用条带的方向信息,二阶全变分可以较好地处理宽条带。基于分裂的Bregman迭代思想来求解提出的模型。数值实验表明,所提出的模型能够很好的去除条带噪声。2.在染色体的研究中,如何高效地将46条染色体分成23类(男性24类,因为性染色体X,Y属于两类)是提高染色体诊断正确率的关键。对于正常细胞,同一段染色体上的像素点属于同一类。为了对染色体进行分类,我们基于这一先验知识与M-FISH图像通道之间的结构性信息,用三维小块描述单个像素点信息。将训练集按照“像素点-样本-类别”构建三维张量,通过高阶奇异值分解提取各个染色体类别的特征信息用于对未知染色体像素点的分类。数值试验表明,本文的方法可以有效的对染色体进行分类并具有比传统方法更高的准确率。3.在精神分裂症生物数据的整合问题中,我们使用联合非负矩阵分解的方法对来自同一组样本的单核苷酸多态性数据,大脑功能性磁共振图像数据和DNA甲基化数据进行整合。该方法将多个数据集投影到同一个子空间,通过对各个变量表出系数的分析寻找数据之间具有密切关系的那些生物标记,这些生物标记可以映射到基因和大脑区域。我们找出了一个模块,该模块包含三种具有显著相关性并和精神分裂症相关的生物标记。通过分析这些生物标记,我们找出了一些候选致病基因和与疾病有关的候选大脑区域。这些基因和大脑区域为后续的精神分裂症临床研究提供了参考。4.提出一个组稀疏联合非负矩阵分解模型,该模型作为第3部分中模型的一个改进。这个新模型增加组稀疏正则项来利用数据中的结构信息,使得结果具有更好的解释性。我们找到四个模块,其中包含具有显著相关性并和精神分裂症相关的生物标记。通过分析这些生物标记,找出了一些候选致病基因和与疾病有关的候选大脑区域。