化学计量学在生物信息和代谢组学数据分析中的应用

来源 :湖南大学 | 被引量 : 2次 | 上传用户:shuang9988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文作者对生物信息学研究以及多维代谢组学数据分析领域中的一些难点问题进行深入研究后,提出了多种化学计量学解决策略,并应用于实际体系的研究。本论文的内容主要涉及到以下几个方面:1.细胞中大部分蛋白质都会同时定位于多个亚细胞器中。分离蛋白质的混合亚细胞定位分布模式对理解蛋白质功能和其它重要的细胞过程十分关键。对此,我们提出一种非线性建模技术首次用于蛋白质亚细胞定位模式分离。变量加权支持向量机(variable-weighted support vector machine,VW-SVM)是一种稳健的建模技术,能够实现灵活合理的变量筛选。全局随机优化技术,粒子群优化算法(particle swarm optimization algorithm,PSO),对变量加权值以及支持向量机 SVM模型参数进行协同调节和优化,使VW-SVM成为一种无参数调节的自适应建模方法。非线性VW-SVM建模方法对大规模荧光蛋白标记图像实现亚细胞定位模式自动分离。结果表明,基于粒子群PSO优化的VW-SVM能够改变建模变量尺度而有效表征亚细胞定位模式。相比传统支持向量机SVM和现有的模式分离方法,非线性VW-SVM显著改善多位点蛋白质亚细胞定位模式分离性能。2.现代生物成像技术的发展使充分展示多位点蛋白质同时跨越不同亚细胞器的定位分布成为可能。量化蛋白质在每个亚细胞器中的分布比例有助于理解蛋白质的功能和细胞机理。然而,成像质量会受特定细胞类型影响,导致与蛋白质亚细胞定位模式相关的信息丢失。为了提高模式识别能力,我们提出了一种新的基于纹理特征描述符的变量加权建模方法。该方法主要提取图像中感兴趣子区域的空间结构特征,有效表征多位点蛋白质亚细胞定位分布模式。另外,为了实现模型自动化,粒子群算法(PSO)用于优化变量权值和模型结构参数。这样一种无参数调节的计算模型,分别结合线性偏最小二乘PLS和非线性支持向量机SVM两种方法,对细胞荧光显微图像集进行模式分离研究。结果表明,提出的新计算模型采用空间结构描述符有效表征蛋白质亚细胞定位分布,大大提高了分离精度,在蛋白质的定位分布以及相关研究中显示了巨大的潜力。3.核酸适配体在科学研究、临床医学以及工业中展示了巨大的潜力。实现这些应用的关键步骤是能够筛选出与感兴趣靶目标具有高亲和力和强特异性的适配体。为了有助于指数富集配体系统进化(systematic evolution of ligands by exponential enrichment,SELEX)实验筛选适配体,我们提出了一种新的核酸序列编码方法,通过重点分析二级结构中环形子结构,实现候选适配体的结构特征提取。由于环形结构与适配体和靶目标之间的结合亲和力密切相关,因此直接对序列的中心环形子结构编码能够有效表征与适配体亲和力相关的特征。另外,在新的核酸序列编码方法中,序列的核酸组成成分也作为变量以减少序列特征描述的相似性。采用人肝癌细胞为靶目标,进行高亲和力适配体的识别研究,以验证提出的方法对序列编码的可行性。结果表明,与现有的序列编码方法相比,新提出的编码方法能够显著提升各种模式识别模型的性能。同时,我们还设计了一组新的非SELEX实验筛选的适配体序列,采用提出的编码方法结合支持向量机SVM模型进行亲和力预测。5条与SELEX实验筛选的最高亲和力相当的序列的获得,更进一步地证明了新提出的核酸序列编码方法的巨大潜力,以简洁、省时、低成本的计算方式有效地辅助高性能适配体设计和优化,促进与适配体相关的研究和应用发展。4.基于GC-MS的尿液代谢组学分析结合化学计量学方法用于新生儿代谢缺陷(inborn errors of metabolism,IEMs)的早期诊断。新生儿代谢缺陷IEMs是一种遗传疾病,会导致严重的精神和身体损伤,甚至是婴儿猝死。正交偏最小二乘判别分析(orthogonal partial least squares discriminant analysis,OPLS-DA)是一种有效的多元统计方法,广泛用于代谢组学数据分析。然而,代谢组学数据不断增长的规模和复杂度通常会降低正交偏最小二乘判别分析OPLS-DA模型的性能。为此,我们提出了一种新的算法HPSO-OPLSDA,利用混合粒子群算法(hybrid particle swarm optimization,HPSO)同时筛选最优变量子集以及相关的变量权值,同时确定最合适的正交成分个数,以提升OPLS-DA模型的性能。对两种新生儿代谢缺陷IEMs疾病,甲基丙二酸血症(methylmalonic acidemia,MMA)和异戊酸血症(isovaleric acidemia,IVA)进行研究,结果表明相比传统的OPLS-DA模型,HPSO-OPLSDA新算法显著提升疾病婴儿尿液样本与正常婴儿尿液样本的鉴别能力。并且,HPSO-OPLSDA方法筛选的标志性代谢物有助于新生儿代谢缺陷IEMs的临床诊断,其中甲基丙二酸血症MMA的标志物为甲基丙二酸、甲基枸橼酸和3-羟基丙酸,异戊酸血症IVA的标志物为异戊酸。5.代谢数据复杂度的不断增加使得化学计量学成为提取相关重要信息不可或缺的工具。正交偏最小二乘判别分析(OPLS-DA)是目前代谢组学数据分析最有效方法之一。但是,OPLS-DA的实际建模性能通常因过多的变量和过少的样本而受到影响。为了改善这种情况,混合粒子群算法(HPSO)自动配置OPLS-DA的结构,同时确定合适的样本权值、筛选最优变量子集,以及最好的正交成分个数,形成新算法以提高OPLS-DA的建模性能。结合基于气相色谱-质谱联用GC-MS的代谢组学,新算法用于识别新生儿代谢缺陷(IEMs)患者与健康婴儿。结果表明,相比传统的OPLS-DA,新算法不仅显著提高识别率,而且确定了有助于诊断甲基丙二酸血症(methylmalonic acidemia,MMA)和异戊酸血症(isovaleric acidemia,IVA)的潜在标志性代谢物,包含甲基丙二酸、甲基枸橼酸、3-羟基丙酸和异戊酸。
其他文献
将微课与初中数学教学有效融合的新型教学模式,在数学导学课、数学新授课、数学习题课、数学复习课中都显示与众不同的应用价值.在如今信息技术飞速发展的时代,数学微课融合
农业是我国的第一产业,是经济发展的重要产业之一,我国人口众多,农业的生产开发更是保障人民利益的重要环节。伴随着农业技术水平的不断提高,现代农业种植技术以及农业机械化
目的:探讨护士超时工作频次对疲劳感的影响。方法:采用描述性相关性研究的设计方法,采用疲劳量表随机调查广东省9家三级甲等医院的1875名护士。结果:不同超时工作情况的护士
目的:了解药品在陕西省公立医疗卫生机构和零售药店的可获得性,研究陕西省药品价格与国际参考价格的差异。方法:采用世界卫生组织/国际卫生行动组织(WHO/HAI)药品价格标准化
本文综述了不同预处理诱导脑缺血耐受及其机制。结果显示脑缺血预处理、交叉预处理、远程预处理等均可诱导脑缺血耐受。腺苷、热休克蛋白、即刻早期基因、离子通道等参与预处
  本文通过对通讯基站遭受雷击的方式进行分析,选择适合的感应雷击波形,利用“综合波发生器”建立相应的雷击试验模型,确立电源连接器抗雷击浪涌的失效标准。在此基础上对开口
会议
统筹城乡发展背景下的新农村建设对农村基层党组织的领导能力提出了新的要求和领域,即新的历史性课题。许多地方的基层党组织出现了领导新农村建设的“能力危机”。新形势下,
针对现有单辊式菠萝茎叶粉碎还田机械作业效率低、作业难度大、作业能耗高及重复作业压实土壤等问题,研制了一种以大中型拖拉机为配套动力的双辊式菠萝茎叶粉碎还田机。该机
在弱酸性条件下,阿莫西林能与亚甲蓝(MB)反应生成易被1,2-二氯乙烷萃取的离子对缔合物,其最大吸收波长为λmax=657 nm。据此建立了测定阿莫西林的萃取分光光度法,药物浓度在0