【摘 要】
:
近年来,单细胞RNA测序技术得到了广泛的应用。随着技术的不断发展,使人们能够从中获取到大量的单细胞基因表达数据,为后期的研究以及生物信息学的探索奠定了良好的基础。单细
论文部分内容阅读
近年来,单细胞RNA测序技术得到了广泛的应用。随着技术的不断发展,使人们能够从中获取到大量的单细胞基因表达数据,为后期的研究以及生物信息学的探索奠定了良好的基础。单细胞基因表达数据中蕴藏着大量的生物基因信息,而如何从中分析出有意义的生物结论,揭示细胞基因间的奥秘成为了目前研究的焦点,因此对单细胞RNA测序得到的数据进行后续分析有着重要的意义。目前,聚类分析是研究该数据的重要分析手段,但因数据存在的dropout现象,导致聚类算法无法直接应用于数据中,使得到的结果并不理想。故本文的研究目的是针对单细胞基因表达数据存在的dropout现象进行聚类算法研究。本文研究了当前主流的处理该数据的降维聚类算法,借鉴其思想并进行改进,提出了一种符合数据特点、高效准确的聚类算法。该算法的思想是将降维的思想与处理dropout问题相结合应用到聚类分析中,把降维作为聚类的预处理步骤,在降维的过程中用改进的距离度量、估算插补数据等方法解决dropout问题。在此基础上,本文选择符合数据分布的模型进行聚类,并对聚类初始化的算法进行改进,从而提高了算法的准确性以及缩减了算法运行时间。在实验验证部分,本文选取了两套模拟数据,五套真实数据作为实证分析中的数据集,并对数据集的结果进行展示。然后选取不同的算法,采用一系列的实验来比对各个算法的优劣。与其他算法相比,本文改进后的算法在实验分析阶段均得到较好的结果。通过验证,该算法在一定程度上解决了数据存在的dropout问题,同时提高了算法精度以及运行速度。最后对本文进行总结,对未来的算法研究提供可拓展的思路。
其他文献
Markov跳变系统是一种具有多个模态的随机系统,系统在各个模态之间的跳变转移是由一组Markov链来决定的。Markov跳变系统的系统参数在表示过程中是可以发生突变的,这一特性使
目的对在本医疗小组接受A型肉毒素治疗的良性咬肌肥大患者的主观等级评价结果进行回顾性研究,分析单次注射、重复注射与治疗效果的关系。方法选择20~40岁良性咬肌肥大的女性,
集群聚集行为是多组连续有序个体呈现的宏观行为模式,在自然生态环境、人群社会等各种群体系统中广泛存在。在场景行为分析和计算机视觉的应用领域中,集群聚集行为识别与分析
自2014年以来,中国地方政府为解决财政支出方面的债务压力,在基础设施和公共服务领域建设方面开始着力发展PPP模式。该模式结合政府和社会资本方的优势实现了项目资源的合理
电气化铁路作为铁路运输的重要组成部分,近年来得到了迅速地发展。在冬季和早春季节,接触网线的覆冰对于电气化铁路的正常运行来说是最为严重的自然灾害之一。接触网线覆冰会
道岔既是机车车辆转线和过轨的基本设备,又是轨道的薄弱环节,主要体现在构造复杂、使用寿命短、限制列车速度、行车安全性低、养护维修投入大等。为减少车轮轮对对道岔的冲击
文本分类技术作为信息处理的关键技术,一直是学术研究的热点问题。随着近年来人们对深度学习研究的深入,在自然语言处理中也逐渐使用了深度学习方法,其也被证明具有高级文本
水泥作为我国重要的工业材料,在建筑、水利、道路工程等领域均有应用。经过数十年的发展,我国水泥工业历经技术引进、消化吸收和自主创新几个阶段,其生产工艺、装备、自动化
文本在自然场景中几乎无处不见,与图像中的其它目标(如:花草、建筑物等)相比较,自然场景图像中的文本信息具有较强的逻辑性与较丰富的表达能力,可以有效地提供高层次的语义信
功能梯度材料属于复合材料的范畴,它将多种材料按照一定的规律结合,使其结构及力学性能按照一定的规律变化,从而实现对各个组分材料优点的综合利用,弥补了传统单质材料的缺陷