面向蛋白质结构预测的计算生物学技术研究

来源 :东南大学 | 被引量 : 10次 | 上传用户：liyqi

【摘要】

：

随着生物数据量呈指数级增长,产生了新的交叉学科――计算生物学,由此给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学中的研究内容之一就是从蛋白质序列预测

【作者】

：

何洁月

【出处】

：

东南大学

【发表日期】

：

2006年01期

【关键词】

：

数据挖掘机器学习统计学粒计算支持向量机计算生物学蛋白质结构预测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着生物数据量呈指数级增长,产生了新的交叉学科――计算生物学,由此给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学中的研究内容之一就是从蛋白质序列预测蛋白质结构,从计算机技术角度看,这是一个分类预测问题,而如何为分类问题建立一个有效并且高效的预测模型一直以来是数据挖掘领域,机器学习和统计学领域研究的热点。本论文的主要工作是从海量数据的处理、预测的可解释性和提高预测精度等主要方面入手,对计算生物学中面向蛋白质结构预测的模型、方法和关键技术进行系统地研究,在结合本文提出的基于粒计算预测模型的基础上,试图将数据挖掘、机器学习和统计学习理论中针对分类预测的优势方法和技术有机地融合起来,以期形成一种新的生物数据分类预测综合系统框架,基于此框架未来发展出一种可适应强、可解释性好以及计算效率高的新型智能预测系统。论文工作的主要成果表现在以下几个方面:1.针对海量数据的复杂生物数据分类预测,本论文提出了一个新型的基于粒计算的支持向量机预测模型(SVM_GC)。该模型利用粒计算理论、聚类算法和先进的统计学习方法,在由聚类算法所智能分割的信息粒上建立各个SVM_GC模型,使得各个SVM_GC模型更简单与专一,并易于并行化,从而分解海量数据的处理,同时有效地解决了海量数据的多分类问题。2.在生物计算的可解释性方面,本文提出了规则生成模型SVM_DT,将支持向量机和决策树结合进行规则抽取,应用于蛋白质结构的预测结果解释。这样,既可发挥支持向量机泛化能力强的优势,又利用了决策树可解释性好的特点。实验结果表明,SVM_DT的可理解性高于SVM,其泛化能力优于决策树。更重要的是这些规则显示了重要的生物学意义,能有效地指导“湿实验”。3.面对产生的数量巨大的规则集,研究者难于解释与分析。为此,本论文提出了规则聚集与超级规则生成算法(C_SuperRule)。利用k-mean聚类算法,基于规则相似度对大量规则进行聚类,然后对各个簇的规则进行聚集以产生新的超级规则。这些超级规则代表了规则的摘要和潜在的分类关系,并具有较高的预测精度。由于这些超级规则来自于聚类,研究者易于理解总的趋势,而忽略单个规则可能引起的噪音。同时,不仅可以关注超级规则所代表的领域关键方面,而且可以有选择性地查看对应的原始规则的细节,从而方便了研究者对规则的分析与使用。4.为了降低生物数据中的噪音和孤立点对预测的影响,本文提出了基于遗传算法和惊奇模式的加权主动学习模型。根据样本数据的惊奇模式对输入样本点加权,从而使不同的数据点在训练学习时产生不同的贡献;利用遗传算法进行优化搜索参数,并利用阵列机实现了遗传算法的并行化,加快了训练进程。通过支持向量机的主动学习,从而提高了支持向量机抵抗噪音和孤立点影响的能力。实验研究结果表明本文所提出的模型是有效的并具有良好的发展前景。

其他文献

智能仪器的应用与发展研究

本文介绍了智能仪器的基本概念、结构特点及设计中有关的几个技术问题,并对其今后的发展趋势进行了某些探讨.

期刊

微处理器智能仪器自动测试

职业人群传染病危害与预防分析进展

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

职业人群传染病危害预防传染病进展

建筑装饰装修施工质量管理要点解析

我国建筑工程中离不开科学的装饰装修施工质量管理工作，尤其需要合理完善的装饰装修施工质量管理系统。本文主要结合工程经验，就建筑装饰装修施工质量管理要点进行了分析和研究

期刊

建筑装饰装修施工质量管理要点

椎基底动脉延长扩张症与后循环缺血和脑小血管病关联的机制

学位

基质金属蛋白酶椎基底动脉延长扩张症脑小血管病椎动脉优势血管性眩晕后循环缺血

面向新时代的中国共产党:挑战、责任与创新

当前,我们党正处于重要历史交汇期,面临着许多国际国内和党内新情况、新矛盾、新问题与新任务的挑战,我们党必须立足新时代,直面新矛盾新问题,迎接新挑战;全面贯彻落实习近平

期刊

新时代中国共产党习近平新时代中国特色社会主义思想党的建设挑战创新

搭建沟通平台促进中美贸易平衡发展

美国是世界上最大的发达国家和最大的市场,中国是世界上最大的发展中国家和最大的潜在市场,中美贸易的稳定与发展,不仅有利于两国经济的稳定与发展,也有利于全球经济的稳定与

期刊

贸易失衡对话机制中美贸易经济发展

数控电位器X9313及其应用

Ｘ９３１３是美国Ｘｉｃｏｒ公司生产的数字电位器，有３２个电阻值，电阻值可通过外部数字信号进行控制，选择好的电阻值被保存在非挥发存贮器中，可重复调用。本文介绍了Ｘ９３１３的内部结构、管脚功能、工作原理。

期刊

数字控制电位器阵列先通后断

亲子互动治疗方法及研究现状

目的亲子互动治疗(PCIT)是一种针对儿童干扰性行为障碍的短期的、以实据为基础的干预方法;它以依恋理论、社会学习理论等为基础,分为以孩子为主导的干预(CDI)及以父母为主导

期刊

亲子互动治疗问题行为以儿童为主导的干预以父母为主导的干预

面向蛋白质结构预测的计算生物学技术研究

其他学术论文