论文部分内容阅读
本论文应用多维尺度分析(MultiDimensional Scaling,MDS)算法实现了H5N1病毒进化的可视化,并进一步深入研究了H5N1禽流感病毒全球传播机制。基因数据的海量增长给生物信息分析带来了机遇,也带来了挑战。MDS算法能够将遗传距离转化为笛卡儿坐标,以便于聚类和可视化。它可以作为系统发育重建的补充或辅助。而经典MDS方法计算复杂度较高,不太适合处理海量生物序列数据。本文分析了经典MDS算法及其变种算法,并比较了MDS算法的数值并行性,从中选择了LMDS和SC-MDS算法作为并行研究对象。由于实对称矩阵p个最大的特征值以及对应的(标准正交化)特征向量求解在MDS算法中占较大比重,本文分析了实对称矩阵的特征值和特征向量的数值求解方法及其并行性,从中选择了奇异值分解(singular value decomposition,SVD)算法作为基于CUDA的MDS实现基础。后续的性能测试显示,GPU上并行实现的LMDS和SC-MDS算法分别能达到17倍和84~218倍的加速比。为了避免因盲目选择LMDS的标记点或SC-MDS的重叠集合而导致误差较大,本文提出了全局分布定维法,并以测试结果说明了其有效性,在一定程度上提高LMDS和SC-MDS的精确度,或者确保误差比较稳定。高致病性H5N1病毒是一种不可根除的传染病病毒,在自然状态下不断变异和重配,严重威胁着禽鸟和人类的健康。借助于并行后的MDS算法,本文快速地对H5N1序列数据进行了降维,并展示了病毒进化动态,提供了除进化树外的另外一种可视化方式。理解高致病性H5N1病毒的传播机制对禽鸟和人的H5N1感染监控和防治以及疫苗的研制都有重要意义。本文估计了分离自不同地区的H5N1病毒的遗传差异和不同地区间的传播速率,描述了H5N1病毒的全球传播网络特性,并研究了其传播机制。本文研究发现,H5N1禽流感病毒的传播规律符合全球潜伏模型,每个地区在一定程度上充当病毒发源地,并且其传播网络与几条主要的候鸟迁徙路线非常接近。H5N1禽流感病毒家谱树的特征是包含长的侧枝,并且许多分枝潜伏数年。这些特征支持高致病性H5N1禽流感病毒的本地潜伏模型。