论文部分内容阅读
生物信息学作为一门新兴的学科,已成为这个世纪自然科学的前沿领域之一。在生物信息学的众多研究方向中,基因表达数据分析一直是一个亟待解决的问题。
基因表达是指基因中的编码信息被转换成行使特定功能的结构产物的过程。人们对于成千上万个基因在某一生命现象中的表达情况的观察,能够将基因的活动状态比较完整地展现出来,使得人们能够从基因组整体水平上把握生命的某些特征,理解生命发育过程。因而对于基因表达数据的分析对于寻找新的基因、确定基因的功能以及分子设计、生物制药等领域具有很重要的现实意义。
神经网络作为机器学习的重要方法,在生物信息学领域中取得了广泛的应用,尤其是生物序列的模式分析中,如蛋白质的分类、启动子的识别与分类等等。神经网络也同样被应用于基因表达数据分析中。相比其它机器学习方法,神经网络在这些应用中,具有高效准确的特点,同时也更符合数据的生物特性。
我们设计完成了利用神经网络自适应共振理论ART(AdaptiveResonanceTheory)对基因表达数据进行聚类的系统。自适应共振理论是一种典型的、无监督的、能够对复杂输入模式实现自组织识别的神经网络。我们在实现中着重研究了基因在不同表达水平上的同相位不可分问题,并根据实际问题对传统神经网络模型进行了结构改进。与传统神经网络模型相比,新型神经网络增加了伴随神经元和重置系统。在新型神经网络的工作流程中,输入模式的幅度被提取出来并被送到网络的警戒测试部分,使得输入模式的的幅度信息没有丢失,从而能够解决基因在不同表达水平上的同相位不可分的问题。实验表明,新型ART神经网络与传统ART神经网络相比,其Cmp和Sep指数略强于传统ART网络,分类质量较好;同时也够较好地根据同一基因的不同表达水平来确定基因的发育阶段,分类结果比较准确。