基因表达数据在肿瘤诊断、基因功能预测中的应用研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:hongyu203311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
前言后基因组时代应用了大量高通量方法,由此产生了海量的基因表达数据。可靠准确的分类对于癌症的诊断和治疗至关重要。微阵列的使用可以同时检测每个样本的上千个基因表达,不但为客观准确的肿瘤分类提供了可能,而且也为临床医生选择适当形式的治疗提供数据支持。基因表达数据通常存在基因个数远远大于观察例数的情形,传统的统计分析方法有时失效,因此有必要分析何时用何法才能获取最有用的信息。虽然已有研究分析特征基因选择方法并用于肿瘤分类,然而大部分集中于一个方法或单个数据库,并缺乏统计学基础。因此,有必要使用多个数据库对各种方法的性能进行系统比较与分析。随着基因组及后基因组计划的不断开展,越来越多的生物信息被人类不断获得。合理的利用这些信息不但能有效的抑制噪声的影响,也能够避免单纯根据单独实验获得的片面信息,但是只有较少的文献意识到先验信息的重要性。聚类分析是一种有效的数据分析工具,已有研究表明参与同一个生物过程的基因具有相同的功能,因此对基因表达数据的聚类分析成为基因功能预测的一种主要方法。然而在聚类分析中,大部分现有方法都忽视了基因的已知功能。随着基因注释数据库的不断完善,尤其是当数据存在噪声时,在聚类过程中整合已知基因功能不失为一个明智之举。在聚类分析中通常是需要先定义基因表达距离,然后再根据此测量距离将基因聚类。如果这个距离单纯从生物实验出发,并没有考虑已有的先验知识,因此得到的距离就不全面、准确。目的选择合适的特征基因,比较不同方法在基因表达数据肿瘤分类中的优劣;在肿瘤基因表达数据中加入先验信息,提高肿瘤分类准确性;结合已知的生物学功能,提高基因表达聚类分析的准确性和解释性。方法本研究使用五个经典的基因表达数据库,分别包括二分类肺癌、结肠癌、多分类肺癌、儿童期肿瘤和脑肿瘤。分别采用最近收缩质心法(PAM),收缩质心的调整判别分析(SCRDA)和多重比较方法(MTP)选择特征基因,再分别利用所得到的特征基因集进行判别分析,判别分析方法包括:K近邻法(KNN)、线性判别分析(LDA)、C-分类支持向量机(C-SVM)、收缩线性判别分析(SLDA)、收缩对角判别分析(SDDA)、最近收缩质心法(PAM)、收缩质心的调整判别分析(SCRDA)和BP人工神经网络(BP-ANN)。本研究使用恶性胸膜间皮瘤和肺腺癌基因表达数据库,通过检索CancerResearch杂志报道的部分有关肺腺癌的基因,获得这些基因在原始数据集中的位置,并进行MTP检验,剔除不显著基因,保留显著基因,再分别与PAM和SCRDA方法获得的显著基因共同组成特征基因集,然后利用所得到的特征基因集进行判别分析。利用积累的基因功能关系,我们提出将已知基因的功能加入一个新的距离矩阵。这个新距离等于测量距离和功能距离之和。算法分为两步进行;第一步,在基于距离的聚类分析(如K-中心或系统聚类)中使用新距离。第二步,将上一步的聚类结果用于功能未知的基因功能预测,判断其是具有已知的功能,还是具有新功能。结果当基因个数多于样本个数时,传统LDA无法正常执行。从二分类与多分类数据来看,SCRDA选择出的基因个数明显多于PAM选择出的基因个数;SDA、PAM和SCRDA的准确率高于传统LDA方法;在机器学习方法中,SVM的准确率高于BP-ANN;使用全部基因与部分基因相比,KNN准确率有所下降。对于利用PAM和SCRDA方法获得基因集后再结合先验信息的分类方法中,只有少数方法的检验集分类准确率没有得到提高,其它方法都有一定提高,除了PCR等少数方法外,训练集的分类准确率都得到提高,相应的标准差也随之降低。模拟试验和对于酵母菌数据的研究证实整合功能距离方法比标准方法更有效。结论本研究发现特征基因的选择对于分类方法具有一定影响,PAM方法使用的特征基因的数目一般要小于SCRDA方法,而后者又要小于MTP方法。改进的判别方法,尤其是SLDA在肿瘤分类判别方面具有良好的表现,优于传统LDA,各改进方法间差别并不明显。在机器学习方法中,SVM好于BP-ANN,但是需要注意核函数及参数的选取。在判别分析中加入先验信息能够有效提高判别分析能力,降低基因表达数据中噪声的影响,这种思想无论在方法学上还是在实践上都具有实际应用前景。基因表达中结合生物学功能在一定程度上能够提高基因表达聚类分析的准确性和解释性,具有一定实际应用意义。
其他文献
目的探究不同宫颈锥切方法治疗宫颈上皮内瘤变Ⅲ级的临床疗效。方法选取2015年3月至2016年3月我院治疗宫颈上皮内瘤变Ⅲ级的66例患者作为研究对象,将所有患者采用随机分组的
[摘要]目的分析神经内科中青年患者的心理状态,提出护理对策。方法采取问卷式调查方法,了解患者的心理状况。结果绝大多数患者具有悲观、失望、焦虑、急躁等心理失衡表现。结论针对患者的不同心理状况,采用相应的护理对策,才有助于提高护理质量,促进患者的康复。  [关键词]神经内科;中青年患者;心理状态;分析;护理  [中图分类号]R473.5 [文献标识码]A [文章编号]1673—9701(2009)15
灵武长枣日光温室促早栽培技术试验研究工作开展于2005年,2008年通过宁夏自治区科技厅成果鉴定,并发布了《灵武长枣日光温室促成栽培技术规程》。之后,灵武市开始规模发展,20
由于铅精矿中含有多种金属矿,给铅精矿质量等级的评价带来很大困难。本文采用物元分析理论,建立了铅精矿质量综合评定模型,解决了铅精矿质量评定问题,该模型对其它有关质量评定问
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
介绍了Pb(NO3)2和CuSO4活化雌黄浮选的试验研究.试验结果表明,Pb(NO3)2和CuSO4对雌黄浮选均有良好的活化作用,且Pb(NO3)2的活化作用较CuSO4要强.本文还应用了结构化学原理、
中秋前后在果树枝干上绑草把,诱引多种害虫到草把内产卵越冬,到入冬后或“三九”天再把草把取下烧掉,杀灭诱集在草把内的害虫,是一项传统技术,应传承下去,服务于现代果业生产,确保控