论文部分内容阅读
表面加强激光解析电离飞行时间质谱(SELDI-TOF MS)结合生物信息学方法进行检测与分析,能够发现癌症“指纹”进而建立诊断模型,有助于增加对健康与疾病状态差别的理解,提早识别危险因素,从而提升疾病诊断的能力。然而,目前对于在癌症诊断中质谱数据应该如何处理还没有一致意见。蛋白质组学质谱数据处理问题成为国际上关于蛋白质组学在癌症诊断实验室研究和临床应用研究最急迫需要研究的热点问题之一。本文针对蛋白质组学质谱数据分析中统计学算法的实现过于复杂、对于实际问题领域专家较难理解的问题,基于可视化数据处理思想,研究蛋白质组学质谱数据分析中的三项基本问题:质谱数据的合理预处理;质谱数据的特征设计与选择;基于复合生物标记物的分类器设计与评价。从而使数据表示可视化、特征提取可视化、分类过程可视化。有利于医学专家和生物学专家挖掘和发现蛋白质组学质谱数据中隐含的丰富知识。首先研究了旨在减小系统误差、改善数据品质、增强数据可解释性的蛋白质组学质谱数据典型预处理方法,包括数据简约、谱线平滑、基线校正、标准化、谱峰提取与量化、谱峰联配等,确定了本文所研究数据集的预处理流程为小波降噪→基线校正→峰值提取→峰值配准。然后研究了两种癌症“指纹”提取方法:局部区域多元信息的雷达图表示与图形特征提取;全样本/均谱断层成像特征选择。图形特征提取是在建立高维数据与多元图表示映射数学模型的基础上,基于局部信息最大化的学术思想,实现质谱指纹数据与多元图表示之间的耦合,在特征选取与降维的同时最大化利用质谱数据的多元信息。图像特征选择是以数据全样本排列或均值行列/卷绕排列生成数据立方体,对维切片断层图像二值化并计算能量曲线,选择最能区分癌症组和控制组的质谱指纹特征。最后研究了基于径向坐标映射结合机器学习算法实现可视化分类的问题。对二维径向坐标映射模型优化后,与支持向量机分类器有机结合,直观地揭示高维数据集中类别和特征间的关系。通过图形特征将二维径向坐标映射扩展到三维,更有效的显示类内及类间相似度的信息,并可以发现隐含的子类。以多元图表示作为数据、专家、机器信息交互和流动的载体,实现基于复合特征的癌症模式分类。基于国际公开蛋白质组学质谱数据库数据,根据多种评价指标验证了所提出的蛋白质组学质谱指纹癌症诊断生物标记物模型和方法的正确性、有效性。