DNA、RNA和蛋白质序列特征提取方法研究及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ziling_net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物测序技术的发展,人们获得了大量的DNA、RNA和蛋白质序列数据,然而与其对应的功能和结构数据却增长缓慢,因此有必要利用机器学习方法来解决这一问题。利用机器学习方法通过序列来研究它们的结构和功能,其中关键问题是如何提取有效的序列特征。本课题对DNA、RNA和蛋白质序列特征提取方法进行深入研究,提出了34种特征提取方法,并将这些特征用于研究生物信息学中三个重要问题:DNase I超敏感位点识别,微小RNA前体识别和DNA结合蛋白识别。本课题研究了DNA、RNA和蛋白质序列特征提取方法。使用机器学习方法首先需要提取序列特征,然而生物序列特征具有不同的长度,如何将其转化成固定长度的特征向量是一个难点。此外,特征提取算法直接影响预测方法的精度。针对这一问题,本课题提出了三类序列特征提取方法:基于核苷酸/氨基酸组成,自相关和伪核苷酸/伪氨基酸组成的特征提取方法。基于核苷酸/氨基酸组成的方法利用序列的基本组成信息,即核苷酸/氨基酸的统计特性,来表示序列。利用序列的基本组成信息虽然取得了一定的成功,但是由于其忽略了序列的全局顺序信息,即核苷酸/氨基酸的物理化学属性的影响,导致该方法对序列信息表达不足。针对这个问题,本课题提出了基于自相关的特征提取方法。为了更好地表达序列信息,本课题同时考虑序列的局部和全局顺序信息,提出了基于伪核苷酸/伪氨基酸组成的特征提取方法。本课题提出了基于RNA二级结构状态的特征提取方法。在上述研究成果的基础上,开发了三个序列特征提取工具rep DNA,rep RNA和Pse-in-One,分别用来提取DNA、RNA和蛋白质的序列特征。为了验证上述特征提取方法的有效性,本课题采用这些特征针对DNase I超敏感位点识别,微小RNA前体识别和DNA结合蛋白识别三个具体的生物信息学问题分别提出预测方法。对于DNase I超敏感位点识别问题,本课题提取了基于DNA序列核苷酸组成,自相关和伪核苷酸组成的三类特征特征,由于这些特征具有不同的序列分布,采用集成学习方法将不同特征组合起来,通过加权投票策略得到最终的预测结果;对于微小RNA前体识别问题,本课题采用相似的特征提取方法和集成学习策略,最终在数据集上达到86.14%的准确率。对于DNA结合蛋白识别问题,本课题提取了基于蛋白质序列氨基酸组成,自相关和伪氨基酸组成三类特征,采用相似的集成学习方法,预测准确率为77.96%。
其他文献
[典型案例]案例一:李某故意伤害案.2010年1月,李某从地里回家路上,看见母亲钱某被邻居张某推倒在地,便上前与张某厮打,后被他人拉开.经鉴定,钱某伤情为轻微伤,李某和张某均为
本文将从西蒙对有限理性认识的几个重要阶段入手,考察有限理性在西蒙学术生涯中的历史呈现形态,进而解析西蒙有限理性思想的完整含义。本文的基本结论:"满意化"和"适应性"是
目的 探讨延续护理对乙肝肝硬化腹水患者饮食干预的效果。方法 选取2014年1月-2015年12月本院收治的乙肝肝硬化腹水患者104例作为研究对象,随机分为观察组和对照组两组,每组
以非丁基氧化锡为催化剂,通过甲基膦酸二甲酯(DMMP)与乙二醇(EG)酯交换反应,制备了含磷多元醇(DMMP-EG)。将DMMP-EG与聚磷酸铵(APP)作为复合阻燃剂,制备了阻燃硬质聚氨酯泡沫
<正>一、国家关于处理德隆危机的有关情况德隆危机爆发后,根据银监会和国务院的有关要求,2004年6月国内15家债权银行成立了德隆债权人委员会(工商银行为主席单位,农行、中行
<正> 原文第十一条指出:“病人身大热,反欲得近衣者,热在皮肤,寒在骨髓也;身大寒,反不欲近衣者,寒在皮肤,热在骨髓也。”此条原文通过病人的喜恶之情,提供了辨寒热真假的宝贵
<正> 词的本义是指文献语言材料所能证明的一个词的本来意义.引申义是指从本义延申或推演出来的意义.二者之间,存在着必然的内在联系,本义和引申义的关系大致可划分为如下九
<正> 六经辨证是《伤寒论》辨证论治的纲领,八纲辨证是对一切疾病的病位和证候性质的总概括。八纲辨证是后世从《伤寒论》中得到启发而发展起来的。一般说来,三阳病多属阳证
<正> 2006年的中国股市让众多投资者始料未及,许多股民在前几年熊市思维的束缚下,被屡屡成为市场的弃儿,能跑赢大盘者寥寥无几,但不少优秀的股票型基金累计净值早已经翻番,成
本文从湖南农村非正规金融产生的角度入手,运用计量经济学中单位根与协整检验,实证分析湖南省农村非正规金融发展与农民收入增长之间的关系,认识到湖南省农村非正规金融发展