论文部分内容阅读
研究目的:研究目的之一是对与帕金森病(Parkinson’s disease,PD)相关基因的mRNA序列进行聚类,通过聚类中不同阈值的选取确定聚类分组。并在此基础上达到对帕金森病相关功能基因的分类,从聚类分析所获得的研究结果将为帕金森病发病机制的研究提供功能基因分类的支持。研究目的之二是对同一聚类组中的未知功能的基因,通过该聚类组中的已知功能的基因对其进行功能的预测。另外,应用生物信息学的方法对帕金森病相关基因的研究,是想充分利用公共数据库的丰富资源,对帕金森病相关基因的信息进行整合,对生物序列的数据资源进行生物信息的挖掘,从中提取出有用的信息,进而在更广泛和更深入的框架中了解它们之间的相互关系,为帕金森病在基因水平的研究提供可靠的依据和支持。研究方法:在本研究中应用层次聚类和模糊聚类两种方法,分别对美国国家生物技术与信息中心(NCBI)的核酸数据库中的19条与人类相关的mRNA序列数据集进行聚类分析。具体获得数据集的方法是以关键词"parkinsonism"对NCBI数据库中核酸数据库进行搜索,从中选取了与帕金森病相关基因的mRNA序列作为研究对象。聚类方法的基础是距离测度的确定,对上述来自NCBI数据库中与PD相关基因的mRNA序列的数据集,本研究采用双序列比对的得分值作为序列变量之间的距离定义,并由此进行层次聚类分析和模糊聚类分析。研究结果:基于相关关系矩阵和距离矩阵进行聚类分析,可以依不同的聚类方式得到不同的聚类图,同时依不同阈值的选取可得不同的分类组。在层次聚类结果中当阈值为0.6时,将19条mRNA序列分为三组:{X4,X8,X11,X15}、{X6}和{X1,X2,X3,X5,X7,X9,X10,X12,X14,X15,X16,X17,X18,X19};在模糊图聚类结果中当阈值为0.5时,也将19条mRNA序列分为三组:{X4,X8,X11,X15}、{X1,X5,X16,X6}和{X2,X3,X7,X9,X10,X12,X14,X15,X17,X18,X19};在模糊等价关系的聚类结果中当阈值为0.6时,将19条mRNA序列分为四组:{X4,X8,X11,X15}、{X6}、{X1,}和{X5,X16,X2,X3,X7,X9,X10,X12,X14,X15,X17,X18,X19}。三种方式的聚类结果的共同结论序列X4、X8、X11和X15被分为一类中。研究结论:在聚类的分析过程中,由于聚类方法的选取的不同,其聚类的结果可能会存在差异,因此聚类分析的过程一般应采用多种不同的方式进行聚类分析,从中得到较可靠的结论。研究表明三种方式的聚类结果的共同结论是:序列X4、X8、X11和X15被分为一类中。对序列X6在两种方式的聚类结果中被分为单独的一类。对相同聚类组中的序列进行相关关系分析,从聚类分析的角度可得出的结论是:被聚为一类中的序列具有相近的功能和相似的特性,此聚类的结果可以为帕金森病相关基因功能分类提供支持。同时对同一分类组中未知功能的基因进行功能的预测。应该指出,由聚类分析所得的有关帕金森病相关基因的功能分类和相关关系的结果,只是为帕金森病相关基因功能分类提供相应的支持依据,聚类分析的结果具体应用于帕金森病的预防、诊断和治疗之前还应得到相应的医学证实。