【摘 要】
:
癌症是一种成因复杂、异质性强、且目前很多病人得不到有效治疗的复杂疾病。根据多组学信息对癌症分子亚型有效地划分是基础生物学研究向临床医学转化的重要一环。虽然多组学数据中包含丰富的信息,有助于更加精确地进行分子分型,但是由于高通量组学数据高维度、多噪音、数据稀疏等特点,以及多组学信息之间存在的信息差异,目前仍然没有能够对所有类型数据都高效、效果好、可解析的方法,所以本文提出了MVSSNMTF(Mult
论文部分内容阅读
癌症是一种成因复杂、异质性强、且目前很多病人得不到有效治疗的复杂疾病。根据多组学信息对癌症分子亚型有效地划分是基础生物学研究向临床医学转化的重要一环。虽然多组学数据中包含丰富的信息,有助于更加精确地进行分子分型,但是由于高通量组学数据高维度、多噪音、数据稀疏等特点,以及多组学信息之间存在的信息差异,目前仍然没有能够对所有类型数据都高效、效果好、可解析的方法,所以本文提出了MVSSNMTF(Multi-View Simultaneous Symmetric Non-Negative Matrix Tri-Factorization)算法,该方法基于不同的相似性度量方法为每个组学数据生成多个相似性矩阵作为观测组学数据的不同视角,如调整余弦相似度,欧氏距离相似度和曼哈顿距离相似度。然后采用改进的SSNMTF方法将每个组学的相似性矩阵分解为子矩阵。接下来,融合从不同矩阵得到的公共子矩阵以获得相似性连接图,并使用图切割算法从中识别出子类型。本方法在模拟的相似性矩阵数据上分型,准确率达到了100%,与目前多视图社区发现算法中效果最好的NG-WSSNMTF(Natural Gradient Weighted Simultaneous Symmetric Non-Negative Matrix Tri-Factorization)取得了同样的成绩。在四组模拟组学数据上,MVSSNMTF在准确率方面与表现最优的SNF(Similarity network fusion)和iCluster(Integrative clustering)等方法相仿,而且稳定性优于SNF。在真实的TCGA(The Cancer Genome Atlas)乳腺癌和肺腺癌多组学数据集上,用多种多组学分型方法来分析经过相同预处理和特征筛选的多组学数据,发现无论如何选择分型数量,MV-SSNMTF在生存分析上都取得了最好的效果。尽管在耗时方面略超SNF,但远远优于其他方法。总体而言,MV-SSNMTF是一种简单,有效且可扩展的算法,可以应用于基于多组学数据的肿瘤分型,也可以扩展到其他应用领域。该方法已经整理成python包,可以在https://github.com/QixiongLee/MVSSNMTF下载后安装并使用。
其他文献
保证人死亡后的保证责任是否应由继承人在继承遗产的范围内承担,司法实践中对此问题裁判不一,学界对此问题也没有一致观点。司法实践中存在三种不同的裁判意见,一是不支持继承人承担责任,该意见认为保证是信用担保,人死信用灭;二是按保证人死亡时间节点区分,该意见认为债务人不履行债务前,保证人仅负保证义务,义务的内容是可能的债务负担,也称“或然债务”,此时,人死义务灭;债务人不履行债务时,保证义务转化为保证责任
本文主要以竹叶花椒为原料,对花椒果皮中木脂素分离、鉴定,通过电子舌技术测定竹叶花椒木脂素的苦味程度,分析竹叶花椒苦味是否受木脂素影响,测定不同采收期竹叶花椒木脂素含量及其体外抗氧化活性,确定竹叶花椒木脂素提取液中木脂素含量变化对体外抗氧化活性的影响,在不影响其生物活性的前提下,对木脂素利用价值及改善竹叶花椒产品的风味提供技术数据支持。主要研究结果如下:(1)采用紫外-可见分光光度法,在单因素实验的
蛇形蛋白SMO是Hedgehog信号通路的重要组分。GDC-0449是第一个上市的SMO靶向药,目前用于治疗晚期基底细胞癌。然而,SMO的D473H突变使其对GDC-0449产生较严重的耐药性,有趣地是,LY2940680和我们的合作课题组前期设计的L4分子在实验中依然有效地抑制了D473H-SMO的活性。为了深入理解该突变导致耐药的分子机制,本文通过理论计算方法研究了野生和突变SMO蛋白与上述三
2001年诺贝尔文学奖获得者V.S.奈保尔是“英国文坛移民三大家”之一。奈保尔成长在多元文化背景之下,复杂的成长经历使他的作品多以异化疏离的无根感为主基调,呈现出鲜明的流散特征。在其代表作《毕斯沃斯先生的房子》中,奈保尔描写了特立尼达岛上一户印度移民二战前后几十年的生活历程。本文从结合批判性跨文化交际视角,运用克利福德的“根与径”流散理论,探讨印度流散群体如何在多重不平等的权利话语体系中重新构建自
日益严重的农田土壤Cd污染阻碍了粮食的安全生产,也对整个生态系统的健康造成威胁。为实现中轻度Cd污染农田土壤安全利用,可采取相应风险管控及修复措施,保障农产品质量安全。在诸多修复技术措施中,原位钝化修复技术具备成本低廉、来源广泛等优势,并能实现边修复边生产,在农田土壤Cd污染修复中备受关注。针对不同地区农田土壤的污染特征,评价多种钝化剂的修复效果是实现Cd污染农田安全生产的技术关键。本研究以稻-麦
近年来,关于学生的深度学习能力的培养受到教育界和学术界的广泛关注。目前有关深度学习的研究主要集中于认知领域,而对于人际领域和自我领域(1)的研究还较少涉及。在许多人的刻板印象中,人际领域深度学习能力是在生活情境下形成和培养的,而课堂情境中则更多培养的是人在认知领域方面的能力。但伴随着教育信息化步入2.0时代,课堂环境的创设更多地向技术丰富和互动等特征不断转型和改变,这些都为人际领域深度学习能力在课
复合材料是由两种或两种以上物理和化学性质不同的物质组合而成的一种多相固体材料。以聚合物为基体,纳米材料为增强相所制备的复合材料即为聚合物基纳米复合材料。热塑性聚
“语篇”从功能角度被定义为一个语义单位。突如其来的新冠肺炎疫情严重影响了人们的日常生活,相关报道备受关注。疫情新闻语篇在传递信息、引导社会舆论以及构建和传播国家形象等方面展现出重要作用。本文以新冠肺炎疫情新闻语篇为研究对象,选取疫情爆发后《人民日报》2020年1月21日—1月31日期间发布的共计102篇相关报道为语料,建立小型语料库,采用定量统计、定性分析、描写和归纳等研究方法,分析新冠肺炎疫情新
随着我国工业化进程的不断推进,能源需求加大。木质纤维素乙醇生产备受关注,但其生产成本仍较高。原料预处理是其转化过程的关键步骤,现阶段尚未开发出较为成功的预处理方法,开发低廉、高效的木质纤维素预处理技术是当前研究关键。本研究采用简单格子设计方法,筛选出具有代表性的腐木样品,分离出高效降解木质素的菌株,研究其降解特性,并考察运用于天然生物质废弃物的预处理效果,研究结果如下:(1)于自然界中采集6份代表
近年来,大型结构的破坏也时有发生,研究表明结构的破坏是从细部层次逐渐向整体层次演化的结果,对局部细节部位的分析研究也很有必要。然而大型结构在单一尺度上的建模分析无法同时满足计算效率与精度的需求,多尺度建模的方法将建立节点微观单元与整体宏观单元,通过不同尺度单元界面的有效连接,可以较准确地得到细节部位的响应。本文采用多点约束方程法进行多尺度建模分析,通过不同原理建立了不同的界面约束方程,并进行算例验