机器学习方法在生物信息学中的应用

被引量 : 8次 | 上传用户：teliek

【摘要】

：

近年来,随着基因组测序技术和物质结构解析技术的发展,生物序列和结构的数据呈指数形式增长.传统的生物实验方法已不能满足目前处理这些海量生物数据的需要.在这种情况下,生

【作者】

：

刘太岗

【发表日期】

：

2010年01期

【关键词】

：

生物信息学机器学习蛋白质结构类蛋白质亚细胞定位转录调控

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着基因组测序技术和物质结构解析技术的发展,生物序列和结构的数据呈指数形式增长.传统的生物实验方法已不能满足目前处理这些海量生物数据的需要.在这种情况下,生物信息学应运而生,其目的在于通过对生物数据的获取、加工、存储、检索与分析,揭示数据所蕴含的生物学意义.从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“发现”的过程.基于机器学习的数据挖掘技术在生物信息学研究中正发挥着越来越重要的作用,并取得了丰硕的成果.本文针对机器学习方法在生物信息学中的若干应用进行了研究,主要成果如下：(1)在第二章,提出了两种蛋白质结构类预测的新方法.第一种方法利用基于符号序列复杂度的距离度量构造k-近邻分类器,避免了蛋白质序列特征提取过程中的信息丢失.在标准数据集上的测试结果验证了该方法的有效性.第二种方法把传统的氨基酸组分和双肽组分推广到基于蛋白质序列PSI-BLAST profile(即PSSM矩阵)的情形,并利用支持向量机进行预测.该方法在具有较低序列相似性的数据集上取得了比较满意的预测结果.(2)在第三章,提出了一种改进的伪氨基酸组分模型预测凋亡蛋白的亚细胞定位.该模型利用自协方差变换从PSSM矩阵中提出序列特征,并使用支持向量机作为预测器.测试实验表明该模型具有良好的预测性能.(3)在第四章,首先利用ATTED-Ⅱ数据库提供的基因共表达数据构建了拟南芥全基因组的共表达网络,然后提出一种子图诱导的策略和基于最大团的图聚类算法改进了共表达基因的聚类,最后利用四种经典的模体搜索算法从每一组共表达基因中预测转录因子结合位点.实验结果验证了该方法的有效性和实用性.(4)在第五章,以模式植物拟南芥为研究对象,利用支持向量机预测转录因子和靶基因之间的调控关系.该方法利用基因表达谱数据构造特征向量,并在我们自己构建的数据集上取得了较高的预测准确度.

其他文献

基于元素周期律知识学生认知研究

元素周期律及其具体表现形式元素周期表知识是中学化学重要的基础理论知识,也是整个化学领域的重要基石。在化学科学体系中,元素周期律可以作为一个有力工具来指导科学研究；元

学位

元素周期律学生认知

丘勇超教授治疗慢性前列腺炎经验介绍

背景慢性前列腺炎(CP)是以排尿刺激症状和膀胱生殖区疼痛为主要表现的临床综合征,为男性泌尿生殖系统的常见疾病,发病率很高。Krieger研究了北美、欧洲和亚洲地区人群中慢性

学位

丘勇超慢性前列腺炎经验

加筋挡土墙的地震作用及动力稳定性分析

加筋挡土墙作为一种新型支挡结构,其造价低廉、性能优良且外表美观,在我国交通和城建等领域应用广泛。大量的实践证明,加筋挡土墙抗震性能良好;但是,当地震激励较强时,仍有必

学位

边坡工程加筋挡土墙地震作用动力稳定性位移动力可靠度数值分析

不同频率电针刺激对单纯性肥胖疗效影响的临床观察

目的观察不同电针频率刺激下单纯性肥胖疗效的差异。方法本研究病例来自2009.4—2011.3台北明师中医联合诊所永和分院及土城分院针灸科病房与门诊收治的患者。将符合要求的患

学位

单纯性肥胖电针频率临床观察

城市房屋拆迁中的行政问责制研究

随着城市化进程加快,旧城区改造、城市房屋拆迁工作也加快了步伐。在城市面貌得到改善的同时,地力政府的政绩提升了,开发商的经济效益提高了,被拆迁人的境况也发生了巨大变化

学位

城市房屋拆迁问责行政问责制监督机制制度化

公路边坡滴灌渗流数值分析

滴灌技术是保证植物生长的有效手段,这种方式具有节水效果明显、不破坏土壤结构、降低费用及节省劳力等优点。为研究不同土壤的滴灌效果,采用基于Richards方程的有限元软件HY

期刊

公路边坡滴灌HYDRUS模拟

DC靶向性DNA疫苗抗肿瘤作用及机制研究

DNA疫苗在肿瘤免疫治疗中具有巨大的应用前景,临床研究表明接受DNA疫苗免疫的病人能够产生抗原特异性抗肿瘤免疫应答,然而,目前的DNA疫苗免疫极少能诱导持久高效的抗肿瘤免疫

学位

DNA疫苗DC靶向性HER2/neu乳腺癌环磷酰胺

C级车悬架KnC特性优化设计方法研究

悬架系统的设计开发是底盘开发的重要环节,其中悬架KnC特性是底盘开发的灵魂。在车辆开发过程中,如何根据整车的性能目标,优化匹配以KnC特性为主体的悬架系统特性,是底盘系统

学位

悬架KnC操稳客观评价支持向量机多目标优化

竹纤维基液体地膜的制备与表征

竹纤维素这类来源广泛的天然高分子多糖,是一种较理想的生物质材料。然而由于竹纤维素自身的多羟基结构和结晶规整排列,以及由此带来的许多特性,限制了竹纤维素的使用范围。

学位

竹纤维臭氧微波处理梭甲基纤维素钠竹纤维生物降解膜

组织变革中工作应激、自立人格与心理健康的关系研究

面对日益激烈的市场竞争,企业为了顺应环境变化和生存发展的需要,不断进行着自身机体的更新和调整。购并和整合、业务流程再造、战略联盟的形成、多元化和国际化战略的实施等

学位

组织变革工作应激自立人格心理健康关系

机器学习方法在生物信息学中的应用

其他学术论文