基于改进的Moe-Sim-VAE单细胞聚类研究

来源 :杭州师范大学 | 被引量 : 0次 | 上传用户:zhangjun3812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物学研究的进一步深入及单细胞RNA测序技术的发展,使得在细胞层面对样本数据进行聚类分析成为现实。将测序得到的单细胞样本测量值聚类成相关的生物表现型,是当今生物学研究的一项重要任务。然而经由RNA测序得到的生物数据不仅拥有超高的数据维度,并且由于RNA测序技术本身的局限性,导致每次测量出的基因表达数量有限,使得大量特征信息缺失,而为保持数据的完整性通常对缺失信息采用“0”填充,因此使得最终所获的数据中“0”占据了很大比重。超高维度和大量“0”信息使得传统聚类算法面对此类数据时很难取得良好的聚类效果,这对聚类算法提出了更高的要求。最近,Moe-Sim-VAE(基于数据相似度的混合专家变分自编码器)聚类模型因其适应复杂数据的灵活性和优异的聚类准确度受到了广泛关注。本文在此模型基础上针对生物数据的特点以及该模型的一些不足之处对其进一步改进优化,主要内容有以下两个方面:(1)针对测序所得生物细胞数据超高维度和高“0”占比的特点,本文借鉴Partial-VAE(部分变分自编码器)对缺失特征信息的处理方式提出了一种新的生物数据信息“maxpooling”处理机制,并将其应用在Moe-Sim-VAE的数据处理部分,实现了对聚类样本数据的去“0”和一定程度的降维。在模拟数据集更高的“0”占比(即更多特征信息缺失补“0”)实验中取得了优于Moe-Sim-VAE的聚类结果,提升了该模型的稳定性和鲁棒性。(2)针对生物数据特征提取效果不佳,以及为进一步提升模型的聚类准确度,本文将生物数据先采取随机森林方法进行特征选择初步降维,再将经特征选择处理后的数据通过KNN(K Nearest Neighbors)算法求取近邻并串起融合,从而让Moe-Sim-VAE模型可以提取到样本的空间结构特征。同时针对该模型在构建潜在表征的混合高斯分布时设定所有样本方差一致的局限性,本文采用全连接层去拟合分布的方差参数,让模型通过训练学习去自适应优化潜在表征的混合高斯分布。另外对改进后的模型提出了三种优化方式,多方面结合取得了优于Moe-Sim-VAE的聚类准确度。
其他文献
学位
随着交互技术、设备的快速迭代,基于键盘、鼠标等传统人机交互方式已经无法满足愈加复杂多样的人机交互应用需求。新型人机交互技术尤其是笔式交互技术,因其与生俱来的自然和人性化的交互体验,成为人机交互领域的新热点。但笔式交互却极少出现在虚拟现实环境和一些三维游戏中。其主要原因是笔式交互设备大多是为二维应用所开发。能否将笔式交互从二维拓展到三维以及如何设计出适用于笔式交互在三维空间中的控制方法,是笔式交互能
学位
垃圾渗滤液是卫生填埋过程中产生的高浓度有机废水,其成分复杂,环境危害性大,需使用一系列的组合式工艺进行处理以达到排放标准。对渗滤液及组合式工艺处理后的尾水的监测常采用物理化学监测,该监测无法反映渗滤液的生物毒性和生态毒性。秀丽隐杆线虫(Caenorhabditis elegans)是一种自由生活的食细菌线虫,具有世代周期短、对环境反应敏感等特性,被广泛应用于污染物的生物毒性检测。而各种类型的土壤中
学位
在过去的二十年里,电子商务已成为中国国民经济的一个主要引擎。电商的兴起使得与之相关的商务文本的翻译越来越重要,人们可借助中译本对电子商务获得系统化了解和认识。近年来,机器翻译+译后编辑(MTPE)模式在翻译中得到了广泛应用,特别是在信息型文本翻译中,借助于这种模式,能够提高效率,减少不必要的人力资源投入,为公司、企业节省资金和精力。本文是《电商分析学:分析和优化数字化战略的影响》一书(节选)的翻译
学位
阐述了目前水基防锈剂的应用情况,并对其进行了初步的分类与机理探讨,最后对水基防锈剂的发展趋势进行了思考与展望。
期刊
数字时代,社交媒体给人们的身心健康带来了一定程度的负面影响,且近几年在新冠疫情的长期影响下表现尤其明显。因此本文以《社交媒体正在毁掉你的生活》(前言)的英汉翻译实践反思为基础,旨在探讨如何在纽马克的交际翻译指导下重现原文本的呼唤功能和交际效果,呼吁读者积极应对使用社交媒体带来的消极影响,为与社交媒体建立健康、有益的关系寻找、开辟一条新道路。在本报告中,笔者从词、句、句群三个层面总结了翻译过程中遇到
学位
随着信息技术的进步,Web 2.0时代已然开启。微博、微信、博客、论坛以及社交网站都在经历飞速发展。社交媒体是利用互联网技术传播和收集信息的一种相对较新的媒体形式。由于其拥有高度开放、互动参与和自由社交等内在品质,越来越多的个体开始接触社交媒体,并制作、分享和收发信息。本文是根据《社交媒体营销:利用消费者原创内容的策略》一书的翻译内容而完成的翻译实践报告,该著作由美国商务专家出版社于2019年出版
学位
随着信息时代的到来,在诸如图像分类、文本识别等实际应用中会产生大量的高维数据。由于高维数据中包含噪声和冗余特征,直接处理这些数据不仅会增加算法的计算代价,还可能会降低算法的性能。同时,实际应用中的数据往往缺少真实的标签信息,而数据的标签信息需要人工标记,该过程费时费力。作为当前的热门研究方向,特征选择能够移除高维数据中噪声和冗余特征,选择相关特征子集,从而有效提高算法的性能。针对上述问题,本文提出
学位
随着信息化时代的发展,社交媒体深入每个人的日常生活中,它的出现正迅速改变人们的交往与交际方式,同时改变了受众消费新闻的方式。《移动与社交媒体新闻学:多媒体新闻实用指南》一书正是对该主题的深刻探讨,翻译国外有关社交媒体的研究成果也对国内的相关研究起到了一些补充作用。本报告选取该书第七章进行英译汉翻译实践,译者仔细分析文章内容、文本特征、写作目的,该文本内容属于信息型文本,语言平实简练,但内容较抽象,
学位
本文是根据《电商力量》一书的翻译内容而做的实践报告。该书是由杰森·G·迈尔斯于2021年出版发行,探讨了如何在疫情之下成功经营发展电子商务新型贸易模式。该书从西方电子商务的视角讲述了电商的整个过程,列举了电子商务发展中可能遇到的阻碍并提出有用的建议,为当下整个电商行业的发展提供新视角。在交际翻译理论指导下,本篇报告针对书中第六章和第七章的翻译难点和翻译策略进行分析探讨,旨在实现译文的衔接和连贯。本
学位