论文部分内容阅读
随着人类对于基因深入、细致的了解,基因治疗也成为了疾病治疗的新策略,例如对缺氧耐受性和易感性的研究用于治疗因缺氧为主要诱因的疾病。并且随着基因芯片技术的广泛应用,可通过DNA微阵列技术将采集到的细胞进行处理从而得到基因表达数据用于之后的分析和预测。由于基因表达数据的规模庞大,而与之对应的具有相关功能的基因却极为有限,使得聚类分析已经成为了当前基因表达数据分析的主要手段。聚类算法的主要思想是通过相似性度量的方式将数据集进行分类,使得具有相似或相关功能的基因被分在一个类簇中,从而利用已知功能的基因预测出那些未知功能的基因。本文对用于缺氧耐受性研究的相关数据进行了整合、分析,设计并实现了一个小型本地专用数据库,提出了一种结合K-均值聚类和均链接层次聚类的聚类算法进行数据分析,最后通过实验预测出人类基因中可能参与缺氧适应的部分。主要工作如下:(1)选取Haddad实验室特意培养的缺氧耐受果蝇作为研究对象。基于课题需求,还需要从其他多个公共数据库获取所需数据,包括基因信息数据、基因本体数据以及相关直系同源基因数据等。因此,为了方便信息的获取、处理以及分析,需要首先对获取的数据进行清理整合和研究分析,以便理解其所包含的具体意义,并在此基础上利用数据库的第三范式设计标准设计数据库结构、表间关系以及表内实体属性,用于建立一个小型的本地专用数据库用于之后的分析处理。同时,设计相关的软件工具用于对数据进行处理和导入。(2)通过比较层次聚类和K-均值聚类这两个常用的聚类算法,并分析比较层次聚类中的四种连接方式,提出了一种结合均连接层次聚类和K-均值聚类的方法进行聚类分析的一种聚类算法。后通过FOM测量对各聚类算法的性能进行比较分析,结果表明结合均连接层次聚类和K-均值聚类的聚类算法具有最好的聚类效能,并以该算法得到的结果作为基础进行之后的分析。(3)随后根据FOM的测量的实验结果,观察拐点并预测合适的类簇划分,并借助已知的两个与缺氧耐受性相关的基因,从所有的类簇中找出可能与缺氧耐受性相关基因组群。最后通过对照果蝇与人类的直系同源基因分析出人类可能参与缺氧适应相关的基因。本文以分析人类基因中与缺氧耐受性相关的部分为研究目标,设计实现本地小型数据库,对实验数据进行分析整合,提出了一种新的聚类算法。实验结果表明,该算法相比于其他传统聚类算法效果更好。最后,利用本文提出的算法预测了人类基因组中可能与缺氧耐受性相关的部分,为基因治疗中与缺氧耐受性相关的疾病提供了一种研究方向。