基于偏斜t混合模型的流式数据细胞类群自动识别算法研究

来源 :中国人民解放军军事医学科学院 | 被引量 : 2次 | 上传用户:lslandgp1972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:流式细胞术是一种对大量细胞的物理和化学特性进行快速分析的技术。通过将荧光标记的抗体与细胞结合,并对细胞在激光照射下的光学信息进行分析,流式技术在细胞癌变诊断、肿瘤检测、艾滋病检测、细胞免疫表型分析、外周血干细胞移植及育苗研制等众多领域得到了广泛应用。然而,在目前流式技术的应用中,流式数据的分析仍然采用人工分析方式。人工分析数据不仅效率较低,浪费资源,而且分析结果的主观性较强,结果的可靠性和可重复性低。随着流式技术向着多通道、高通量方向发展,快速自动的数据分析平台已成为流式技术发展的迫切需求。流式数据分析的主要过程是对样本中细胞群进行划分,即设门。人工设门方法是将多维数据逐次投影到二维空间,然后通过划定区域将同一类细胞归为一类。人工设门主要基于主观经验进行区域设定,不仅缺乏统一标准,而且很难准确识别含有多维特征的细胞类群。流式数据自动设门在机器学习领域称为非监督聚类,针对这一过程目前虽然提出了一些自动聚类算法,然而由于流式技术检测样本的多样性,许多流式数据通常包含了一部分数量稀少且高度非对称分布的类群,对于这些类群,目前的聚类算法无法进行准确识别。另外,由于流式技术的多参数特点,流式数据通常包含了多个维度的特征信息。对于多维度流式数据,目前的算法主要通过先将数据投影或降维到二维空间,然后进行聚类分析。降维或投影的过程不仅可能丢失一部分数据特征,而且其分析过程需要人工操作,其属于一种半自动聚类算法。综上所述,有必要对流式数据细胞类群自动识别算法进行研究,实现多维流式数据的直接聚类分析,尤其是数量稀少且高度非对称分布类群的准确分析。方法与内容:本课题以流式数据细胞类群自动识别为目标,重点解决数据中数量稀少且高度非对称分布类群的识别,实现多维流式数据的直接聚类分析。课题按照算法设计和实验验证两个过程展开研究,主要进行了以下工作:(1)针对数量稀少且高度非对称分布类群的识别,提出了偏斜t混合模型聚类算法。通过对混合模型进行研究,确定了偏斜t分布为混合模型的分量密度。通过分析偏斜正态分布的定义方法,以及t分布与正态分布的转化关系,定义了一种偏斜t分布概率密度。基于混合模型极大似然估计及其EM算法的研究,对定义的偏斜t分布混合模型进行EM算法推导,并得到了EM算法相关计算表达式。针对EM算法计算可能出现的局部最优解问题,提出了一种基于K-means和极大似然的参数初始化方法,该方法保证E算法计算过程收敛到全局最优解。(2)针对目前混合模型方法计算效率低,无法识别不规则形状类群的问题,提出了基于偏斜t混合模型的层次聚类算法。该算法通过类群数量估计、偏斜t混合模型聚类和结果合并三个主要步骤完成对数据的聚类分析。对于数据中类群数量的估计,要求估计的类群数必须限制在一个合理范围,提出了一种基于直方图的类群数量快速估计算法,该算法利用最大后验概率计算最优组数,并通过直方图组间频数变化趋势识别类群峰,实现了流式数据中类群数量的快速估计。对偏斜t混合模型冗余的聚类结果,定义了一种类群间相似度判断准则,该准则同时兼顾类群间的空间距离和类群的空间分布状态。对合并过程的结果,采用两段回归拟合方法实现了结果的最优选择。(3)仿真实验分析。由于前一个过程的结果会影响后一过程的计算时间,因此,基于流式数据的基本属性(事件数、类群数和维度),首先仿真3组不同属性的数据,分析影响算法时间复杂度的主要过程。然后,在此基础上,仿真3组不同属性的数据,分析影响算法时间复杂度的主要因素。接下来,通过分析两个模仿真实流式数据特征的仿真数据,分别评价偏斜t混合模型识别不同形状类群和算法识别数量稀少且高度非对称分布类群的有效性。在此过程中,分别对比其他混合模型和非基于概率模型聚类算法的分析结果。最后,通过分析一个含有凹形类群的仿真数据,评价算法分析不规则形状数据的有效性。(4)生物实验验证。首先进行微生物细胞活性分析实验,通过分析酵母菌细胞活性实验中的流式数据,评价算法在分析该类型数据的有效性。然后进行淋巴细胞亚群分析实验,通过分析CD8+T淋巴细胞相对计数实验和NK细胞与B细胞相对计数实验数据,评价算法分析淋巴细胞亚群数据的有效性。三个实验数据分析过程中,同时对比目前其他基于概率模型的算法和非基于概率模型算法的分析结果。结果(1)仿真实验结果:通过对三组(共30个)不同属性的数据进行分析,并记录三个过程的计算时间,得出偏斜t混合模型EM算法的计算时间占据了算法计算的主要时间,约为97%。通过采用偏斜t混合模型对三组(共60个)不同属性的数据进行分析,得出偏斜t混合模型EM算法计算时间与数据中包含的事件数和类群数成线性关系,与数据的维度成平方关系。并且,对于通常条件下的流式数据(p<20,g<20,n<50000),算法计算时间主要与数据中的类群数和事件数相关。由于其他基于混合模型的聚类算法采用信息准则识别类群数量,因此,实验结果同时验证了本文算法相比其他混合模型算法具有更高的计算效率。在算法有效性评价实验中,偏斜t混合模型分析仿真数据结果的F-measure(F值)为:0.99234,高于其他混合模型分析结果的F值:0.98281,0.97989,0.98302,验证了本文设计的偏斜t混合模型识别多种分布形状类群的能力。本文算法分析含数量稀少且高度非对称分布类群的仿真数据结果的F值为0.99899,高于其他算法分析结果的F值:0.98002,0.98395,0.99264,验证了本文算法识别数量稀少且高度非对称分布细胞群的能力。通过分析包含凹形类群的仿真数据,验证了本文算法识别数据中不规则分布类群的能力。(2)生物实验结果:以直接聚类方式对实验数据进行分析,本文算法分析酵母菌细胞活性检测实验数据结果的F值为0.91637,高于其他算法分析结果的F-measure值(F值):0.78126、0.81928、0.89472、0.76438,验证了本文算法分析该类型数据的有效性;本文算法分析CD8+T淋巴细胞亚群相对计数流式数据结果的F值为0.95642,高于其他算法分析结果的F值:0.78453、0.88642、0.89013、0.89691;本文算法分析B细胞和NK细胞相对计数流式数据结果的F值为0.95807,高于其他算法分析结果的F值:0.80149、0.90826、0.92682、0.93041,验证了本文算法分析淋巴细胞亚群数据的有效性。三个实验的结果验证了本文算法直接分析多维流式数据结果的可靠性。结论:相比基于概率模型的软聚类算法,本文提出的算法不仅能够准确识别数据中凹形及不规则分布类群,而且分析时间少于其他算法。相比非基于概率模型的硬聚类算法,本文提出的算法不仅能够识别数量稀少且呈现高度非对称性的类群,而且实现了多维流式数据的直接聚类分析。因此,就效率和准确性而言,本文提出的算法是目前流式数据自动聚类分析较好的算法。
其他文献
VaR模型已经成为国外大多数金融机构衡量金融风险和进行风险管理的主要方法之一。该文介绍了VaR模型的基本内容,并就VaR模型在银行信用风险管理中的应用做了详细分析,然后指
[摘要] 商业银行在金融体系里占据着重要的地位,其经营的效率直接影响了整个体系的效率。目前我国商业银行在内部控制上存在制度不健全,缺乏有效风险评估等问题,只有解决了这些问题才能保障整个银行业的稳健发展。本文在借鉴西方国家商业银行先进经验的基础上,结合我国的国情提出了一些建议。  [关键词] 商业银行 内控 有效性    一、商业银行金融安全与内部控制    商业银行作为金融体系的核心,其经营的成果
<正> 1 概述图1是混凝土搅拌输送车搅拌筒的侧面图,它是由圆柱、圆台和球缺结合成的筒体。在搅动过程中,进料口和出料口之间由于高度为A—B的叶片将混凝土拌合料挡住,不会从A
【名医档案】$$ 黄少宏,现任广东省口腔医院副院长、广东省牙病防治指导中心副主任。$$ 1988年中山医科大学毕业,兼任中华口腔医学会预防口腔医学专业委员会常务委员、中
报纸
数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,主要用于有效地支持决策支持查询。随着数据仓库的规模不断增加,这种涉及大量数据的复杂决策查询
目的探讨窝沟封闭剂预防儿童龋齿的效果。方法选择同一所学校的一、二年级学生526名,并按照电脑随机的方法分成2组,试验组的学生263名由同一人采用同一种材料及方法进行窝沟
我国近代科学先驱徐寿首先倡议建立江南制造局翻译馆,系统译出近代化学专著,创立化学元素汉译名原则,参与创办上海格致书院和《格致汇编》,成功地运用铅室法制硫酸和用近代科
[目的]测定并分析不同地区啤酒糟的基本成分。[方法]测定了来自甘肃兰州(2012-B-001)、内蒙古呼和浩特(2012-B-002)和陕西西安(2012-B-003)3个地区啤酒糟的基本成分,并与葡萄