关于提高T细胞表位预测性能的智能计算方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qhxfxfxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量研究表明:病原体感染、肿瘤发生发展、自身免疫性疾病的发生发展和组织器官移植排斥都与T细胞抗原识别和活化异常或偏离相关。T细胞表位(Tcellepitope)是指抗原经过抗原提呈细胞(APC)加工后,由主要组织相容性复合体(MHC)分子提呈给T细胞受体(TCR)的短肽。T细胞表位预测是指借助于计算机的海量数据处理能力,从数百万的蛋白质里找出既能与特定的MHC分子结合,又能与特定TCR结合的抗原肽;并在此基础上通过生物实验判断找到的抗原肽能否使得T细胞活化;若能,则确定该抗原肽为T细胞抗原表位。T细胞表位预测技术对于减少实验合成重叠肽、理解T细胞介导的免疫特异性和研制亚单位多肽及基因疫苗具有重要意义。   本课题是国家自然科学基金重点项目“T细胞特异性识别和活化信息数量化和可视化研究(No.30230350)”中的一个重要子课题。   本文针对现有基于机器学习的T细胞表位预测中亟待解决的4个问题(即预测模型的收敛速度慢、预测错误率尚可降低、可理解性差和增量学习难)进行了研究。本论文的研究工作是在利用初级锚点知识和遗传算法将MHC结合肽的亲和力预测问题转化成为一个可供计算的模式分类问题的基础上展开的。其主要创新性成果如下:   1)针对目前比较流行的基于误差反传神经网络(BPNN)的T细胞表位预测模型存在训练速度慢和难以增量学习等不足,本文选取了排序学习前向掩蔽模型(SLAM)作为预测模型,极大加快了模型的收敛速度。与此同时,本文还基于SLAM模型提出了快速增量学习算法,成功实现了对新增样本的快速增量学习。实验结果表明,基于SLAM模型的T细胞表位预测模型能够在很短的时间内快速实现增量学习。   2)为进一步降低T细胞表位预测错误率,本文首次提出了基于神经网络集成的预测模型。实验结果显示该模型在预测错误率上较单个神经网络模型有明显降低。   3)模型的可理解性对于帮助生物学专家理解MHC分子与抗原肽的结合机理肓着重要意义。于是,本文提出了基于粗集的T细胞表位预测模型,其中包含了基于信息熵的属性约简完备算法和结合锚点知识的属性值顺序约简算法。该模型将MHC结合肽的领域知识巧妙地融入到了基于粗集理论的知识获取方法中,从而使得该模型在基本维持了与神经网络预测模型同等预测错误率的情况下,提取出了易于专家理解的产生式规则。这些规则有助于生物学专家将其注意力集中于某些很可能的关键模式上,并便于生物学专家通过对这些很可能的关键模式的验证和分析来进一步理解蕴含于其中的免疫学机理。   4)为了进一步降低预测错误率,受神经网络集成思想的启发,本文提出了规则集集成算法(RSEN),并构造出了基于该算法的T细胞表位预测模型。该模型能够充分利用来自各种不同的属性约简和属性值约简算法的多样性优势。实验结果表明,基于RSEN算法的T细胞表位预测模型不仅继续保持了所获取到的规则的易理解性,而且具有比基于BPNN或粗集的T细胞表位预测模型更低的预测错误率。   5)为了进一步增强T细胞表位预测模型的可理解性,本文在设计出了一整套描述规则与决策表的定量指标的基础上,提出了基于粗集的顺序规则预剪枝算法,并将MHC结合肽的领域知识融合到了该算法中。MHCⅡ类分子结合肽的实验结果表明,该算法能够在降低或维持原有预测错误率的同时,大大减少了所获取到的顺序规则集中规则的数目和长度。   6)在研究基于粗集理论的知识获取方法的过程中,本文发现了现有大部分属性约简算法的共同特征(即过度依赖“保持决策表的原有分类能力不变”的基本思想)在一定程度上会削弱获取到的规则的推广能力,于是,提出了一种新颖的基于粗集和主成分分析的知识获取方法。该方法在进行知识获取的过程中,利用主成分分析方法所获得的信息(我们把它称为总体相关系数)来有重点地保留原始决策表中较为重要的某些条件属性和属性值,以便最大限度地降低属性约简和属性值约简对原始决策表中条件属性包含的“因”信息所造成的损耗,以期增强获取到的规则集的推广能力。最后,实验验证了该方法所获得的规则集的推广能力比其他方法所获得的规则集的推广能力更强。
其他文献
2001年,科技部将“网络教育关键技术及示范工程”列入“十五”国家重大科技攻关计划,攻关内容包括该项目的12个课题。本文的研究背景正是基于该“十五”项目的第12个子课题―
本文利用动态模糊逻辑(DFL)作为形式化描述工具,提出了Agent的推理模型,并在此基础上构造了一个多Agent系统推理平台。主要工作包括:基于DFL理论,构造了单个Agent的推理模型;
随着Internet的快速发展,电子邮件也得到了越来越广泛的应用。然而传统的电子邮件存在的若干不安全因素(如邮件可能在不为通信双方所知的情况下被读取、篡改和伪造),使重要需要
本文通过对提升机闸控系统及其现有闸控参数检测方法的分析,提出了一种在提升机低速运行时,通过切断电源、施加制动闸,检测施闸后的行程和速度图,依据提升机制动效果,测试出
  本文阐述MiroSot系列足球机器人视觉子系统的设计与研究。文中首先介绍了视觉子系统设计的原理,对图像处理技术中的彩色图像分割、视觉跟踪以及图像畸变校正等进行了方案
  本文针对启发式算法和标准遗传算法在求解该问题时各自的缺陷,结合二者的优点,将从实际排版经验得到的启发式信息引入标准遗传算法,建立了一种启发式混合遗传算法,将问题的解
软件质量和生产率是软件企业成功的两个关键因素,本文选取软件瞬时生产率作为研究对象,在企业内部进行度量方案的设计和实施,并使用数理统计的回归分析方法,对采集的数据进行分析
以软交换为核心的下一代网络(NGN)通过业务与呼叫控制分离以及呼叫控制与承载分离实现相对独立的业务体系,提供开放的API接口,支持不同带宽、实时的或非实时的各种媒体业务使用
  本系统主要包括使用描述逻辑推理机作为推理模块,使用数据库作为保存实例的存储空间,将不同技术结合实现基因实例的查询。  本文的原型系统使用FaCT和Racer[5]作为描述逻
网格(Grid)技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网络虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格的作用是将分散在网络上的信