DNA、RNA和蛋白质序列特征提取方法研究及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：ziling_net

【摘要】

：

随着生物测序技术的发展,人们获得了大量的DNA、RNA和蛋白质序列数据,然而与其对应的功能和结构数据却增长缓慢,因此有必要利用机器学习方法来解决这一问题。利用机器学习方

【作者】

：

刘福乐

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

DNA序列特征提取 RNA序列特征提取蛋白质序列特征提取 DNase I超敏感位点识别微小RNA前体识别 DNA结合蛋白识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着生物测序技术的发展,人们获得了大量的DNA、RNA和蛋白质序列数据,然而与其对应的功能和结构数据却增长缓慢,因此有必要利用机器学习方法来解决这一问题。利用机器学习方法通过序列来研究它们的结构和功能,其中关键问题是如何提取有效的序列特征。本课题对DNA、RNA和蛋白质序列特征提取方法进行深入研究,提出了34种特征提取方法,并将这些特征用于研究生物信息学中三个重要问题:DNase I超敏感位点识别,微小RNA前体识别和DNA结合蛋白识别。本课题研究了DNA、RNA和蛋白质序列特征提取方法。使用机器学习方法首先需要提取序列特征,然而生物序列特征具有不同的长度,如何将其转化成固定长度的特征向量是一个难点。此外,特征提取算法直接影响预测方法的精度。针对这一问题,本课题提出了三类序列特征提取方法:基于核苷酸/氨基酸组成,自相关和伪核苷酸/伪氨基酸组成的特征提取方法。基于核苷酸/氨基酸组成的方法利用序列的基本组成信息,即核苷酸/氨基酸的统计特性,来表示序列。利用序列的基本组成信息虽然取得了一定的成功,但是由于其忽略了序列的全局顺序信息,即核苷酸/氨基酸的物理化学属性的影响,导致该方法对序列信息表达不足。针对这个问题,本课题提出了基于自相关的特征提取方法。为了更好地表达序列信息,本课题同时考虑序列的局部和全局顺序信息,提出了基于伪核苷酸/伪氨基酸组成的特征提取方法。本课题提出了基于RNA二级结构状态的特征提取方法。在上述研究成果的基础上,开发了三个序列特征提取工具rep DNA,rep RNA和Pse-in-One,分别用来提取DNA、RNA和蛋白质的序列特征。为了验证上述特征提取方法的有效性,本课题采用这些特征针对DNase I超敏感位点识别,微小RNA前体识别和DNA结合蛋白识别三个具体的生物信息学问题分别提出预测方法。对于DNase I超敏感位点识别问题,本课题提取了基于DNA序列核苷酸组成,自相关和伪核苷酸组成的三类特征特征,由于这些特征具有不同的序列分布,采用集成学习方法将不同特征组合起来,通过加权投票策略得到最终的预测结果;对于微小RNA前体识别问题,本课题采用相似的特征提取方法和集成学习策略,最终在数据集上达到86.14%的准确率。对于DNA结合蛋白识别问题,本课题提取了基于蛋白质序列氨基酸组成,自相关和伪氨基酸组成三类特征,采用相似的集成学习方法,预测准确率为77.96%。

其他文献

期待可能性的理论认识及实践应用

[典型案例]案例一:李某故意伤害案.2010年1月,李某从地里回家路上,看见母亲钱某被邻居张某推倒在地,便上前与张某厮打,后被他人拉开.经鉴定,钱某伤情为轻微伤,李某和张某均为

期刊

期待可能性宽严相济刑事政策司法实践期待可能性理论癖马案理论认识实践应用

“满意化”和“适应性”:西蒙有限理性思想探析

本文将从西蒙对有限理性认识的几个重要阶段入手,考察有限理性在西蒙学术生涯中的历史呈现形态,进而解析西蒙有限理性思想的完整含义。本文的基本结论:"满意化"和"适应性"是

期刊

西蒙有限理性满意化适应性

延续护理对乙肝后肝硬化腹水患者饮食干预的效果观察

目的探讨延续护理对乙肝肝硬化腹水患者饮食干预的效果。方法选取2014年1月-2015年12月本院收治的乙肝肝硬化腹水患者104例作为研究对象,随机分为观察组和对照组两组,每组

期刊

延续护理肝硬化腹水饮食干预

反应型含磷多元醇/APP复配阻燃聚氨酯泡沫的制备及性能

以非丁基氧化锡为催化剂,通过甲基膦酸二甲酯(DMMP)与乙二醇(EG)酯交换反应,制备了含磷多元醇(DMMP-EG)。将DMMP-EG与聚磷酸铵(APP)作为复合阻燃剂,制备了阻燃硬质聚氨酯泡沫

期刊

硬质聚氨酯泡沫阻燃反应型含磷多元醇聚磷酸铵力学性能

德隆系危机事件给商业银行带来的启示

<正>一、国家关于处理德隆危机的有关情况德隆危机爆发后,根据银监会和国务院的有关要求,2004年6月国内15家债权银行成立了德隆债权人委员会(工商银行为主席单位,农行、中行

期刊

德隆系商业银行国务院客户风险管理集团客户统一授信危机事件

《伤寒论》是怎样辨寒热真假的?临床上还应注意哪些问题?

<正> 原文第十一条指出:“病人身大热,反欲得近衣者,热在皮肤,寒在骨髓也;身大寒,反不欲近衣者,寒在皮肤,热在骨髓也。”此条原文通过病人的喜恶之情,提供了辨寒热真假的宝贵

期刊

寒热真假《伤寒论》

略论词义引申的九大关系

<正> 词的本义是指文献语言材料所能证明的一个词的本来意义.引申义是指从本义延申或推演出来的意义.二者之间,存在着必然的内在联系,本义和引申义的关系大致可划分为如下九

期刊

引申词义引申义事物名称

试述六经辨证与八纲辨证的关系。

<正> 六经辨证是《伤寒论》辨证论治的纲领,八纲辨证是对一切疾病的病位和证候性质的总概括。八纲辨证是后世从《伤寒论》中得到启发而发展起来的。一般说来,三阳病多属阳证

期刊

八纲辨证六经辨证三阳病

股票型开放式基金投资策略及市场展望

<正> 2006年的中国股市让众多投资者始料未及,许多股民在前几年熊市思维的束缚下,被屡屡成为市场的弃儿,能跑赢大盘者寥寥无几,但不少优秀的股票型基金累计净值早已经翻番,成

期刊

投资策略投资者股票型开放式基金易方达策略成长股票型基金基金单位净值累计净值市场展望

湖南农村非正规金融发展与农民增收

本文从湖南农村非正规金融产生的角度入手,运用计量经济学中单位根与协整检验,实证分析湖南省农村非正规金融发展与农民收入增长之间的关系,认识到湖南省农村非正规金融发展

期刊

非正规金融农民增收实证分析

DNA、RNA和蛋白质序列特征提取方法研究及应用

其他学术论文