机器学习方法在生物信息学中的应用

被引量 : 8次 | 上传用户:teliek
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着基因组测序技术和物质结构解析技术的发展,生物序列和结构的数据呈指数形式增长.传统的生物实验方法已不能满足目前处理这些海量生物数据的需要.在这种情况下,生物信息学应运而生,其目的在于通过对生物数据的获取、加工、存储、检索与分析,揭示数据所蕴含的生物学意义.从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“发现”的过程.基于机器学习的数据挖掘技术在生物信息学研究中正发挥着越来越重要的作用,并取得了丰硕的成果.本文针对机器学习方法在生物信息学中的若干应用进行了研究,主要成果如下:(1)在第二章,提出了两种蛋白质结构类预测的新方法.第一种方法利用基于符号序列复杂度的距离度量构造k-近邻分类器,避免了蛋白质序列特征提取过程中的信息丢失.在标准数据集上的测试结果验证了该方法的有效性.第二种方法把传统的氨基酸组分和双肽组分推广到基于蛋白质序列PSI-BLAST profile(即PSSM矩阵)的情形,并利用支持向量机进行预测.该方法在具有较低序列相似性的数据集上取得了比较满意的预测结果.(2)在第三章,提出了一种改进的伪氨基酸组分模型预测凋亡蛋白的亚细胞定位.该模型利用自协方差变换从PSSM矩阵中提出序列特征,并使用支持向量机作为预测器.测试实验表明该模型具有良好的预测性能.(3)在第四章,首先利用ATTED-Ⅱ数据库提供的基因共表达数据构建了拟南芥全基因组的共表达网络,然后提出一种子图诱导的策略和基于最大团的图聚类算法改进了共表达基因的聚类,最后利用四种经典的模体搜索算法从每一组共表达基因中预测转录因子结合位点.实验结果验证了该方法的有效性和实用性.(4)在第五章,以模式植物拟南芥为研究对象,利用支持向量机预测转录因子和靶基因之间的调控关系.该方法利用基因表达谱数据构造特征向量,并在我们自己构建的数据集上取得了较高的预测准确度.
其他文献
元素周期律及其具体表现形式元素周期表知识是中学化学重要的基础理论知识,也是整个化学领域的重要基石。在化学科学体系中,元素周期律可以作为一个有力工具来指导科学研究;元
背景慢性前列腺炎(CP)是以排尿刺激症状和膀胱生殖区疼痛为主要表现的临床综合征,为男性泌尿生殖系统的常见疾病,发病率很高。Krieger研究了北美、欧洲和亚洲地区人群中慢性
加筋挡土墙作为一种新型支挡结构,其造价低廉、性能优良且外表美观,在我国交通和城建等领域应用广泛。大量的实践证明,加筋挡土墙抗震性能良好;但是,当地震激励较强时,仍有必
目的观察不同电针频率刺激下单纯性肥胖疗效的差异。方法本研究病例来自2009.4—2011.3台北明师中医联合诊所永和分院及土城分院针灸科病房与门诊收治的患者。将符合要求的患
随着城市化进程加快,旧城区改造、城市房屋拆迁工作也加快了步伐。在城市面貌得到改善的同时,地力政府的政绩提升了,开发商的经济效益提高了,被拆迁人的境况也发生了巨大变化
滴灌技术是保证植物生长的有效手段,这种方式具有节水效果明显、不破坏土壤结构、降低费用及节省劳力等优点。为研究不同土壤的滴灌效果,采用基于Richards方程的有限元软件HY
DNA疫苗在肿瘤免疫治疗中具有巨大的应用前景,临床研究表明接受DNA疫苗免疫的病人能够产生抗原特异性抗肿瘤免疫应答,然而,目前的DNA疫苗免疫极少能诱导持久高效的抗肿瘤免疫
悬架系统的设计开发是底盘开发的重要环节,其中悬架KnC特性是底盘开发的灵魂。在车辆开发过程中,如何根据整车的性能目标,优化匹配以KnC特性为主体的悬架系统特性,是底盘系统
竹纤维素这类来源广泛的天然高分子多糖,是一种较理想的生物质材料。然而由于竹纤维素自身的多羟基结构和结晶规整排列,以及由此带来的许多特性,限制了竹纤维素的使用范围。
面对日益激烈的市场竞争,企业为了顺应环境变化和生存发展的需要,不断进行着自身机体的更新和调整。购并和整合、业务流程再造、战略联盟的形成、多元化和国际化战略的实施等