论文部分内容阅读
在当今信息时代,采集获取的生物数据种类繁多,如脑电波、基因微阵列数据、人脸数据、虹膜数据、指纹等等。随着生物科学和信息科学的发展,人们致力于从数据中寻找问题的解决方法,例如疑难病症的基因微阵列数据分析,脑机接口的脑电波数据分类,刑侦破案中的DNA比对、视频追踪中的人脸识别等。非负矩阵分解是近年来发展迅速的数据分析方法,在生物信息学中有着广泛的应用前景。 非负矩阵分解(NMF)通过将一个高维非负数据矩阵分解成两个低维的非负矩阵,并最小化它们之间的距离,从而将数据投影到低维空间进行分析。本文研究非负矩阵分解,提出了三种各有特点的非负矩阵分解方法,并在一些生物信息学数据上进行了实验应用。本文主要工作包括: 1)提出基于高斯赛德尔方法的非负矩阵分解——GSNMF。GSNMF通过对数据进行预投影再分解,最终得到两个低维非负矩阵。该模型不仅分解速度优于传统非负矩阵分解方法,并能有针对性地处理维度不平衡的基因微阵列数据。 2)提出基于一致信息熵度量的图正则非负矩阵分解——CGNMF。CGNMF通过链接图保留原数据的几何性质,并最小化一致信息熵度量得到低维矩阵。该模型能够鲁棒地学习数据的特征并应用于聚类,其相应的人脸识别实验和脑电波分类实验表明了其良好的鲁棒性。 3)提出基于一致信息熵度量的有监督非负矩阵分解——CSNMF。CSNMF添加了标签信息,结合CGNMF模型框架进行有监督地学习得到两个低维非负矩阵。该模型能够更有效地进行数据分类,脑电波分类实验表明其能大大提高识别率。