张量分解方法的研究及在生物测序数据上的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:jeans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症(恶性肿瘤)是威胁人类生命健康的最大杀手。随着新一代测序技术、纳米技术和生物芯片技术的快速发展,人类获取了大量的基因组信息并对此进行充分的挖掘,为癌症的预防和治疗提供理论依据。生物测序数据存在数以万计的基因,然而细胞病变仅与少量基因的差异表达(差异表达基因)有关,此类差异基因在海量数据中只占小部分,这为提取与癌症病变有关基因的工作带来挑战。矩阵的鲁棒主成分分析方法旨在将原始矩阵表示成矩阵的线性组合,并通过稀疏和低秩约束将噪声考虑到算法中来,再对部分分解矩阵进行研究,从而解决由高维度引起的数据问题。然而,这一模型没有充分挖掘癌症多组学数据的空间结构以及多视角信息,影响选择差异表达基因的精确度。而基于三阶张量分解方法的研究能保留数据的立体结构不被破坏,从而能充分挖掘数据的隐含信息,这在当前引起了广泛关注。针对目前矩阵分解方法无法保留数据空间几何结构的问题,本人在鲁棒主成分分析方法的基础上,利用癌症基因图谱中的生物测序数据,提出对算法稀疏性、鲁棒性的改进。主要分为以下三个部分:(1)针对空间几何结构感知力低的问题,提出了张量鲁棒主成分分析方法。该方法在矩阵鲁棒主成分分析模型的基础上引入张量结构,将L1惩罚项施加在稀疏项上,利用原始张量分解出的稀疏张量来保留数据表示的空间几何结构,从而更好地处理包含异常值和噪声值的张量数据。通过癌症基因图谱中单癌症多类型的整合数据验证,该方法可以挖掘到具有更高富集程度的特征基因。(2)针对张量噪声敏感度低的问题,提出了双稀疏约束的张量主成分分析模型。该方法通过对稀疏张量的双重稀疏约束,提高噪声分离的精度,其中施加的L2,1正则项可以增强模型的鲁棒性。将基因对齐和归一化预处理后的多组学癌症数据作为原始张量的输入数据,在经过模型处理后获得的稀疏张量上进行差异表达基因的选取。经过实验对比,提出的方法求解速度快,收敛性强,而且可以挖掘出更多的差异表达基因。(3)针对张量核范数不能很好近似秩函数的问题,提出了基于张量截断核范数的主成分分析方法。该方法引入截断核范数来更好地逼近秩函数,解决了张量核范数近似秩函数过程种存在较大误差的问题,增强模型鲁棒性。此外,模型采用L2,1范数来学习稀疏张量,其产生的行稀疏约束更能检测到实际张量的异常值,从而生成一个稀疏组来使稀疏效果更好。该模型可以通过稀疏张量识别差异表达的基因,并通过低秩张量对样本进行分类。仿真数据和癌症基因组数据上的实验结果表明,所提方法优于其他方法。
其他文献
本文首先研究了 30名来自不同国家的初级汉语学习者在一项访谈任务和一项双向交流任务中交际策略的使用倾向,然后通过“大五类人格测试”获得被试的性格特征,分析了性格因素
本论文主要研究了蒙古族著名作家纳·赛音朝克图的中篇小说《春天的太阳升自北京》。论文由绪论、正文、结论和附录等部分组成。绪论部分介绍了作者纳·赛音朝克图生平及其作
第一部分PRPS1基因变异功能验证及致病机制研究耳聋是临床上最常见的感觉神经系统缺陷疾病之一。据世界卫生组织(World Health Organization,WHO)统计,全世界超过5%的人口——4
随着互联网及移动技术的蓬勃发展,车联网络也应运而生,车载多模终端采用多种接入技术混合通信便形成了异构车联网络。异构车联网中,信道垂直切换问题是异构网融合的重要问题,
随着中国国力的不断加强和国际地位的不断攀升,汉语热持续升温,越来越多的语言学习者开始学习汉语和汉语文化。作为世界第一大国的美国,不光在经济、军事上名列前茅,在教育上
全文由三个部分组成,第一部分引言是交代选择《兰花花叙事曲》和《江南春色》这两首风格性作品的原因和研究目的,当中主要是表达作为一位二胡音乐学生,长年生活于民乐发展相
目的:抑郁症是一种以持续显著的心境低落为主要症状并伴有自杀倾向的疾病,其发病机制尚未明确,临床上用于治疗的药物均存在很多缺点,研究抑郁症的发病机制,发现有效的药物靶
稻瘟病菌(Magnaporthe oryzae)是一类丝状子囊真菌,主要通过无性态孢子进行传播。目前,该病菌已成为影响全球水稻产量最为严重的病原微生物之一。利用分子生物学和遗传学等方法揭示稻瘟病菌的侵染机理,鉴定致病相关蛋白,可为该病菌高效低毒农药靶标的研发提供有效参考。真核生物中蛋白质的翻译后异戊烯化修饰(CAAX修饰)能够介导包括小G蛋白、核纤层蛋白等重要蛋白质的亚细胞定位以及蛋白与蛋白间的相
目的:人类中枢神经系统中80%的恶性原发肿瘤是脑胶质瘤,其预后极差。胶质瘤作为一种血管生成实体瘤,其恶性进展依赖于肿瘤组织中血管的生成。尽管临床上胶质瘤的抗血管生成治
目的:通过锥形束CT(cone-beam computed tomography CBCT)对下颌牙列缺失患者的舌侧孔(lingual foramina LF)和舌侧管(lingual canal LC)进行影像学观测,了解其解剖位置、数