鲁棒矩阵分解的方法研究及在基因表达数据中的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:tytytytytytytytytyty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症(恶性肿瘤)已经成为危害人类健康的头等问题。由基因芯片技术及二代测序技术所获取的癌症基因表达数据(Gene Expression Data,GED))已成为诸多研究者的挖掘热点。此类数据维度高,但样本数远远小于维数,并且只有少数基因也称特征基因参与癌症病变。矩阵分解技术是从高维数据中提取特征基因的有效方法,然而随着研究的不断深入,传统技术无法满足日益增长的需求。例如:(a)无监督矩阵分解方法存在训练样本歧义性高的缺点;(b)目标函数采用平方项计算时,往往增大了对噪声和异常值的敏感度;(c)主成分分析(Principal Component Analysis,PCA)中主成分(Principal Components,PCs)的稠密性,使所挑选特征基因的生物学意义模糊不明确;(d)非线性数据内部的图谱结构无法通过传统的线性降维方法构建。因此,通过它们进行特征学习时,很难做出合理的生物学解释。本文通过对前人的研究进行补充完善,提高原有算法的鲁棒性、稀疏性等,为下一步更深入的挖掘癌基因、预防、诊断和治疗癌症做铺垫。(1)提出了同时具有稀疏特性和判别能力的PCA算法(SDSPCA)。由于传统PCA属于无监督学习方法,致使训练样本的歧义性较高。因此考虑在PCA上引入类别标签和稀疏约束,在提高PCA稀疏性的同时对具有类别标记的训练样本进行学习。新方法易于求解且收敛速度快,可以挑选到更多的公共特征基因,以及分类效果更精确。(2)提出了具有鲁棒特性的图正则PCA算法(L1/2gLPCA)。首先,引入流形学习(Manifold Learning,ML)去构建数据内部的几何结构;然后通过在误差函数上引入L1/2范数,降低噪声和异常值的影响,使算法更健壮鲁棒;最后通过新算法L1/2gLPCA对GED进行特征提取,发掘其中的特征基因,实验结果显示新方法挖掘的特征基因的富集程度更高。(3)提出了基于Lp范数约束的图正则PCA算法(PgLPCA)。在目标函数上引入Lp范数约束,由于约束p可在0~1范围内任意取值,保证了算法的灵活性和鲁棒性。图正则约束保证了数据点的几何关系不丢失,使样本点间的聚类更清晰。实验结果显示这些新发现的特征基因与相关癌症具有很大的关联性,并且PgLPCA在聚类方面优于其它同类方法。(4)针对GED的高维特点,提出具有去稠密和去冗余效果的稀疏PCA算法(gLSPCA)。传统PCA作为线性分解技术,由原始数据重新组合构成PCs,其权重(也叫基)常稠密较多,然而每个变量都对应一个特定的基因。如果每个PCs包含更少的非零基,PCA的效果将大大被提升。因此,引入稀疏约束过滤掉一部分冗余信息,保留那些对于研究癌症发展有深远意义的特征基因。(5)提出一种新的双图PCA算法(DGPCA)。首先,在PCA模型的PCs和基上同时引入ML,同时构建矩阵行向和列向的几何结构;然后通过新方法在GED中进行双聚类,构建数据中存在的“棋盘结构”。该模型简单易求解,闭合形式的解保证了算法速度。最后,实验结果显示该方法能有效挖掘数据中的棋盘结构和其中存在的癌基因。
其他文献
基于南极18个站点探空气象观测数据对欧洲中期天气预报中心的再分析数据(ERA-Interim)和美国国家环境预报中心的再分析数据(NECP)在南极地区高层大气的适用性进行验证。结果
移动通信系统的飞速发展使得数字视频成为最受欢迎的信息载体。然而由于视频编辑软件的易操作性,数字视频的完整性和真实性无法得到保证。视频重压缩是视频篡改必不可少的步
石墨烯是本世纪最有前景的纳米材料之一,由于其独特的性质而受到了广泛的关注。然而,其独特的性能和多样的应用依赖于石墨烯的质量和厚度。因此,实现高质量,大规模的可控合成
21世纪开始的第四次工业革命,是以“大数据”这一互联网核心为标志的,数据分析素养作为数学学科核心素养在《普通高中数学课程标准(2017年版)》中一经提出,便引起我国教育学
本文主要研究高邮凹陷北斜坡地区的古近系阜宁组阜三段(E1f3)地层。随着近年高邮凹陷勘探程度的提高,以前对该套地层的沉积相研究已经不能满足生产需要,因此需要对该套地层重
随着我们进入大数据时代,日益增长的庞大数据量对于数据信息存储器的要求越来越高,假如在微纳米尺度上实现电场调控磁性,就可以对信息存储密度做进一步改进,有助于解决这些问
信托始于委托人的设立意愿,由委托人将自己的财产交付于受托人而设立的,可见委托人对信托的存在起着决定性作用。然而在最原始的信托制度中,委托人设立信托后即隐退出信托关
糖尿病对人体健康存在极大危害,研究有效的抗糖尿病药物对维持生命活动有深远意义。α-葡萄糖苷酶抑制剂作为一种新型的抗糖尿病药物广泛应用于临床,其具有含氮的拟糖类结构,
电子对抗(ECM)技术被广泛应用于现代电子战,随着电子频率谱密度的日益复杂,越来越多的干扰对雷达的工作性能造成影响,雷达的生存环境遭遇前所未有的挑战。雷达欺骗式干扰是雷
在全球气候变化的大背景下,暴雨、洪涝、台风等极端降水事件的频发对自然环境、经济发展和人类生命财产安全产生严重的威胁,已引起公众、政府和学者的广泛关注。极端降水事件