论文部分内容阅读
高血压疾病是一种在全球范围内都具有高发病率和高死亡率的疾病,目前是最常见的心脑血管疾病之一。20世纪90年代以来,高血压基因研究在世界范围内成为热点,其分子生物学研究主要是在特定人种中找到与原发性高血压相关的基因。除了遗传因素,环境因素对原发性高血压的发病也有关键影响。高原高血压作为高原地区特有的疾病,是环境、饮食和遗传等多种因素相互作用的结果,虽然目前对其发病机制仍在探索之中,但高原地区高寒缺氧的环境是诱发高原高血压的重要因素之一。长期生活在高原地区的人群为了适应高寒低氧的环境,基因和生理功能方面都发生了一定的适应性变化,其氧化应激水平也高于平原地区人群。近几年高通量微阵列杂交技术得到了快速的发展,尤其是基因芯片技术的广泛应用,产生了海量的基因表达谱数据。为对如此大规模的基因表达数据进行有效地组织和管理,各种数据库随之建立起来。因此,构建高血压疾病信息数据库有助于将高血压相关基因表达数据整合起来,针对性强,有助于生物学和医学工作者对高血压疾病的研究,这对高血压疾病的预防、诊断和治疗具有重要的科学意义和应用价值。本论文的重点是利用R编译环境构建差异表达基因识别与检测模型,以此模型为基础,搭建了差异表达基因在线检测和数据分析可视化平台,具体方法如下:1、从GEO数据库中获取GDS数据集及平台数据,利用R编译环境对其进行预处理,主要包括背景处理、对数转换、缺失值填充、归一化等。对源数据进行预处理主要是为了消除原始数据的背景噪音和系统偏倚,让数据更符合正太分布并更具有生物学意义,以确保后期数据分析的准确性;2、用倍数法和t检验方法筛选出差异表达基因,并绘制其聚类分析热图;3、将构建的检测模型用R程序包实现,结合MySQL及PHP、JavaScript等网页开发工具搭建了差异表达基因在线检测和数据分析可视化平台,将数据处理模块、数据分析模块和可视化模块通过浏览器展现。本文以GDS2258和GDS5083数据集为例,利用构建的差异表达基因识别和检测模型及在线平台进行分析,得到较为合理的差异表达基因数据,说明该模型和在线平台是有效可靠的,可用于差异表达基因的识别和检测以及可视化。