基因表达谱分析若干关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 3次 | 上传用户:luke_2013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达谱数据分析需要统计学、模式识别、人工智能、计算机和生物科学等方面的知识。基因表达谱的出现为以上学科在理论和应用上的发展提出了新的挑战。复杂疾病分类,差异表达基因识别和基因之间关系的研究是基因表达谱分析的三个主要任务。虽然有关这三个方面的研究已经取得很大进展,但目前仍有尚待深入研究的问题。本文就围绕这三个方面的问题,提出了新的分析方法。  在差异表达基因探测方面,提出了一种新的探测框架。该框架包括4部分:测试、评价、排序和选择。在测试上,联合多种统计测试方法初步探测差异表达的基因,克服单一统计测试方法探测差异表达基因的缺点;在评价上,根据每个基因偏离双线性回归模型的程度来评价差异表达的程度;在排序上,用残差的大小来排列基因,克服了基于P一值排序方法的缺点;在关键基因的选择上,根据一种统计门限选择一小组基因,为生物学家进一步的深入研究提供选择依据,克服了随机门限选择关键基因的缺点。每种统计测试方法都有自己的适用条件,它们可能漏识一些重要基因,针对这一问题,该方法在双线性回归模型的基础上对没有被其它方法选为差异表达的基因进行了重新测试。在4个公共癌症表达谱数据上的实验结果表明:该框架能够有效探测差异表达基因。探测方法的评价是一个具有挑战性的问题,本文提出了一种基于真实表达谱的仿真评价方法,客观评价和比较了本文框架和几种统计方法。生物分子试验和仿真结果表明本文方法的探测精度明显高于三种统计检验方法(KS-检验,t一检验和秩和检验)方法。  分类过程的可视化是生物学家所追求的目标,尽管目前大部分样本分类方法在基因表达谱样本分类上取得较高的分类精度,但基因表达谱是一种新的数据类型,生物学家不仅希望分类方法的精度高,而且希望分类过程透明,因为生物学家目前对各种复杂疾病的发病机理还不清楚,它们希望通过可视化的分类方法发现有意义的Marker基因、发现新的模式、结构、信息或样本之间的差异,以加深对疾病发病机理的了解和认识,帮助制定有效的治疗方案。目前来自模式识别领域的大部分分类方法难以满足生物学家的上述要求。因此目前急需发展分类过程透明的可视化分类方法,我们提出了一种基于特征基因分布差异的可视化分类方法以满足生物学家的要求。本文方法首先用信噪比方法选取特征基因,然后计算所选特征基因的平均表达值,最后绘出特征基因在两类样本中的分布图,并以该分布图为分类器,观察每个样本中特征基因的分布,如果样本的分布展示了正常样本的特点,则被分到正常样本,否则被分到疾病样本。用该方法分类几个公共表达谱数据,实验结果表明:该方法能够有效分类复杂疾病。该方法的优点是分类过程透明,与其它方法相比,它能够向生物学家展示更多信息,如通过对每个样本的分类生物学家能够发现样本之间的差异,通过该分类方法还能够发现疾病相关的基因。  分类规则在生物上的可解释性是生物学家所追求的目标。本文提出了一种基于基因对的分类方法。从该分类方法中抽取的分类规则简单、在生物、逻辑和统计上易于解释。该方法首先为每对基因建立一个基于线性回归模型的分类器;然后用分类精度评价分类器的性能;最后比较所有的基因对模型,选出具有最高分类精度的模型。最高分类精度模型的数量可能有多个,为了获得最佳的分类模型,多个最高分类精度模型用残差信噪比进一步排序,排在上面的模型选为最佳模型。当基因表达谱数据比较复杂时,单个最佳模型的分类精度可能比较低,为了进一步提高分类精度,本文用遗传算法联合多个分类模型分类复杂疾病。在多个表达谱数据上的试验结果表明:用单个最佳分类模型或联合多个分类模型能够获得100%的留一交叉验证精度。该方法具有多种应用:能够识别大量优秀MARKER基因对;能够识别一些不被其它方法识别的关键疾病基因;从分类模型中抽取的具有生物意义的分类规则能够帮助生物学家预测未知基因的功能;通过该方法生物学家能够发现发现新的模式,结构和信息。  本文还提出一种集成聚类技术、GO术语分析、统计分析和基因网络的方法来研究基因在不同样本中关系的变化。通过研究功能模块内部基因之间关系的变化识别出那些在不同样本中发生显著变化的功能模块和生物过程。将该方法应用到结肠癌数据上,成功地识出与癌症相关的功能模块和生物过程。
其他文献
移动Ad hoc网络是一种新型的无线自组织网络,与常用的蜂窝网络和无线局域网不同,它不需要固定基站或控制中心,可以在任何时候,任何地点快速构建起来,因此近年来受到越来越多的关注
随着互联网的发展,人们的社交生活及信息获取方式发生了巨大的变化。微博的兴起让人们能够快速获取海量信息,如何从海量信息中自动发现有价值的内容并推荐给用户具有重要意义
由第三代合作伙伴计划(3GPP,3rd Generation Partnership Project)提出的自适应多码率语音编码解码标准(Adaptive Multi Rate,AMR)是基于3G平台的语音业务编码规范,可根据无
在城市交通迅速发展,车辆保有量日益加大的背景下,智能交通系统的研究和应用越来越受到重视。不过,目前的智能交通系统研究更多的集中于集中式系统的领域,随着系统负荷的增加
随着网络技术的不断发展,3D网络游戏越来越受到广大青少年的喜爱。而我国政府也逐渐加大了对游戏产业的支持,例如国家已将游戏引擎的研制列入863攻关计划,国家体育总局也已经
近年来随着网络技术的飞速发展,在Internet上产生了许多高带宽应用。在各种解决网络带宽瓶颈方案中,IP组播技术是最有优势的方案之一。如果使用了组播技术,即使网络中的用户
随着互联网时代的高速发展,大量的信息不断的呈现在互联网上,信息检索已经成为人们获取信息的必要的手段。搜索引擎的出现极大地满足人们的需求,让人们能够轻松地面对互联网
随着互联网的快速发展,信息爆炸式增长,信息检索技术帮助用户在浩如烟海的信息中查找需要的信息。本体技术作为语义网技术中的一种先进的知识表示技术,通过概念和概念间的关系反
随着计算机网络向社会各个领域的渗透,对网络安全的研究越来越受到研究人员的重视,其中基于策略的安全管理是研究的热点问题之一。作为基于策略安全管理系统核心之一的安全策
东软信息学院是一家主要从事信息技术领域学历教育、培训教育、在线大学教育的教育服务提供者。随着技术进步和社会发展的需求,学院的教学计划调整非常频繁。教学计划的调整要