论文部分内容阅读
目前,由细菌而引发的感染性疾病越来越多,快速、准确的识别致病细菌,将对相关疾病的及时预防或治疗有着重要的现实意义。蛋白质组(Proteomics)是一切生命现象的物质支撑,对蛋白质组的研究,可以实现物种鉴定与疾病病理分析。质谱技术(Mass Spectrometry,MS)因可大量、并行、完整地检测蛋白质分子而成为蛋白质组学分析的重要手段。然而,在当前医学领域,要对所获质谱数据进行后续分析而达成细菌鉴定的目的,都必须使用某些额外的商用仪器自带软件(如CliProTools等)。重庆医科大学附属第一医院的医学检验中心(以下简称中心)经历一定时期的积累,已获取较大数量临床细菌样本的质谱数据,而前述的仪器配套软件在处理该类数据时功能有限且使用成本较高,所以中心期望与课题组合作,寻找适合的计算机领域数据分析方法对已获取的临床质谱数据进行充分挖掘,并最终能够实现细菌鉴别、辅助医疗决策。然而,质谱数据本身具有高维小样本(High-Dimensionality and Small Sample size,HDSS)的特点,为基于它的后续分析应用带来了挑战。而且已有研究未考虑到临床生物质谱数据的复杂特性,如因所用仪器误差和不同实验操作差异、以及仪器量程较小等问题而带来的影响。因此,在当前对临床复杂生物质谱数据的分析应用鲜有研究的情况下,亟待设计一个更加有效普适的质谱数据分析方法,实现基于临床质谱数据的微生物分类。为了完成以上目标,我们设计并实现了以下的一套针对临床质谱数据的细菌分类方法:首先预处理阶段,通过一种特殊的分滑窗(Bining-Sliding,BS)预处理方法处理质谱数据,在对齐杂乱数据的同时,尽可能的去除因质谱仪器所致的系统误差,使得后续分析更加顺利;然后在特征选择阶段,广义特征选择包含在度量空间和转换空间两种选择策略,本文将两方面策略结合:(1)首先将原始数据进行小波变换,并根据代表信号与代表噪声的小波系数模极大值(Wavelet Transform Modulus Maxima,WTMM)在各分解层级上具有不同的相关性传播规律,剔除临床质谱数据包含的大量噪声,提取隐含的质谱特征;(2)然后依据质谱数据的统计特性,设计一种基于t检验的种群初始化改进遗传算法用于封装式特征选择。在改进的遗传算法中,t检验统计量被用作初始化种群的先验信息,而分类性能指标直接作为遗传算法的适应度评价指标;在整套方法的最后,基于提取出的生物质谱特征训练支持向量机(Support Vector Machine,SVM)分类器,最终实现微生物的分类识别。本文针对中心提供的临床金黄色葡萄球菌(Staphylococcus Aureus,S.aureus)质谱数据进行实验,以区分耐甲氧西林金黄色葡萄球菌(Methicillin-Resistant S.aureus,MRSA)和敏感型菌(Methicillin-Sensitive S.aureus,MSSA)为目标。几组对比实验的多次交叉验证试验结果显示,新提出的方法将基于临床质谱数据的细菌分类准确率从0.63提升到了0.82,而且它的灵敏度和特异度比较平衡,均在0.8左右,都取得了一个较好的细菌鉴别效果。同时新设计方法的多次试验所得结果性能稳定,准确率标准差低至0.008。因此本文新设计的一套结合小波与遗传算法选择质谱特征的细菌分类方法可以针对临床质谱数据有效识别细菌。且本方法具有一定容错性和普适性,可以用于分析处理各种特性的质谱数据,揭示质谱所反映的类型差异,实现微生物识别或疾病诊断的辅助功能。