论文部分内容阅读
随着人类基因组计划的完成,在关注于结构和功能研究的后基因组时代,放眼于整个全基因组的大规模生物数据,深入发掘其中蕴含的结构和功能信息,为生命科学提供更多更有价值的知识,越来越成为科学家研究的重点.而最近兴起的微阵列以及基因芯片等技术和实验手段,使人们可以同时观察成千上万条基因在某个生命现象中的表达情况,从而将基因的活动状态比较完整地展现出来,使得人们能够从基因组整体水平上把握生命的某些特征,这无疑为科学家进行大规模功能基因组分析提供了思路.通过对全基因组范围内的基因的表达进行分析,人们可以预测未知基因的功能,发现基因之间的调控关系,进而勾勒出全基因组的基因调控网络,基因表达分析已经成为生物信息学研究的一个重要方向.非确定性人工智能领域的概率图形模型——贝叶斯网络模型,其理论完整,易于处理非确定性,并且表示直观,被越来越多的学者用于分析基因表达数据,从而构建基因调控网络.对照着数据挖掘的不同方法和任务,事实上针对大量的基因表达数据的基因表达分析也同样存在着种种特定的挖掘任务,而不仅仅是构建基因调控网络.尽管已经有各种不同的数据挖掘和机器学习方法被用于进行各种不同的基因表达分析任务,由于基因表达数据本身具有的独特的复杂性以及生命科学研究先验知识的不足,针对基因表达数据的分析至今仍没有很成熟而较为统一可行的方法,不断有来自于不同研究领域的分析方法被引入进来进行试验性研究.既然基因的表达是由基因调控网络来指导和控制的,生物细胞的外在特征,包括表现出各种病症、对刺激产生的反应等都是基因调控网络的某个侧面的反映,而贝叶斯网络又是合适的建模基因调控网络这种基因表达本质特征的可计算模型,利用贝叶斯网络模型来实施更多的基因表达挖掘任务有理由成为一个很好的尝试,目前从数据学习贝叶斯网络模型的研究工作的进展也给这样的研究工作提供了基础.该文以贝叶斯网络为主要研究对象,通过解剖该模型,分析将其应用于数据挖掘的优势和可行性,并研究将其改造为针对不同挖掘目的挖掘不同知识模式的方法,这包括将其改造为有监督、半监督和无监督的分类模型,和相关性分析模型,并利用实际的样本数据进行了实验分析.在这些分析的基础之上,进而利用这些基于贝叶斯网络模型的不同挖掘方法对真实的基因表达数据进行挖掘分析.该文的工作一方面在于拓展较成功的用于建模基因调控网络的贝叶斯网络模型对基因表达数据进行更广泛的数据挖掘分析;另一方面在于分析成功应于人工智能专家系统领域的贝叶斯网络统计图形模型,研究将其改造用于各种数据挖掘分析任务的方法,并且同常用的决策树分类模型,以及传统的关联规则知识挖掘模型进行了比较,指出了贝叶斯网络模型在这些知识挖掘方面的能力和相对优势.