基于机器学习的microRNA基因预测

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:bianyitijie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
microRNA是一种单链的非编码小分子RNA,长约20-24个核苷酸,它由长度约为70个核苷酸的microRNA前体(pre-microRNA)经过具有RNaseIII活性的Dicer和Dicer-like-1内切核酸酶加工形成,microRNA通过诱导靶mRNA剪切或者抑制其翻译来调控基因表达的功能。人类有近三分之一的基因都受到microRNA的调控,它对生物的细胞增殖分化、细胞死亡、早期发育、代谢活动等生物过程有着重要的调控作用,研究表明,它与癌症也有着紧密的联系,对microRNA的研究有助于人们了解基因间的网络调控关系,更有助于对基因功能的研究以及生物的进化探索。虽然microRNA广泛存在于55个物种之中,目前被鉴定出来的microRNA数量比实际存在的要少的多,还有大量的microRNA有待发现。因此对microRNA的进行预测具有重要的意义。目前已知的microRNA预测主要有两种方式,cDNA克隆预测和计算预测。前者是microRNA早期主要的预测方式,这种方式直接、可靠,但是很难克隆出在不同时期表达,或者只在特定的组织或细胞系中表达的microRNA。计算预测则不会受到microRNA在表达时间、表达水平或组织特异性的影响,从而可以弥补cDNA克隆测序的不足。本文基于机器学习提出了一种称为ACO+SVM的microRNA预测方法,由于pre-microRNA的序列较长,并且可以折叠形成stem-loop结构,将pre-microRNA序列和结构特征结合起来提取相应属性信息。本文通过已知的阳性和阴性pre-microRNA构建区分二者的分类器,由于支持向量机(Support Vector Machines,SVM)在逼近和泛化能力方面具有良好的特性,因此本文microRNA的预测方法采用SVM训练分类器,考虑到SVM分类器的性能受核函数和相关参数的影响很大,采用蚁群算法(Ant Colony Optimization,ACO)搜索SVM的相关参数,以构建无偏、且同时具有较高敏感性和特异性的分类器。实验结果表明该方法不仅可以有效的鉴别人类真假pre-microRNA,而且在其他多个物种的预测上具有较高的准确度,与其他同类方法相比具有更好的敏感性和特异性。
其他文献
随着航运船舶数量的逐年增加,人们对船舶航行安全的要求也在不断提高。对船舶设备运行状态进行实时监控是确保船舶安全运行的主要技术手段之一。由于船舶设备数量大、型号多
随着网络的普及和发展,互联网已经成为人们生活、学习、工作、娱乐的重要途径。互联网作为信息载体,近年来以惊人的速度在增长,信息量以TB计算,拥有上千万个网站、数十亿的用
目前面向动态模糊数据的聚类分析研究的还比较少,为此,在动态模糊逻辑理论基础上,结合传统的聚类分析和模糊聚类分析理论,本文对面向动态模糊数据的聚类分析算法做一些尝试研
当前基于信任计算的应用越来越多,涉及网络通讯、网络购物甚至是网络金融等众多与人们日常工作生活息息相关的领域,信任计算已经成为了各类网络应用中的重要一环。然而,针对
随着数据采集技术和数据处理技术的发展,人们对数据不确定性的认识逐渐深入。由于测量误差、设备精度、保密措施等各种因素的影响,数据表现出固有的不确定性,这种数据被称为
互联网中色情图片传播泛滥,对其自动识别与过滤越来越重要。在本课题中,主要针对网络上常见的单人色情写真类图片,提出了基于感兴趣区域(Regions of Interest,ROIs)检测的不
数据挖掘(Data Mining)是从大量不完全、有噪声、模糊的、随机数据中,发现隐含其中而人们先前未知、又潜在有用的信息和知识的过程。关联挖掘是数据挖掘研究中的一个重要分支
随着微电子技术、通讯技术和网络技术的不断发展,嵌入式应用技术以其易于集成、开销低以及应用广泛等特点成为现代社会各个领域的热门技术,在数据采集领域也发挥着非常重要的
车载自组网(Vehicle Ad Hoc Network, VANET)是一种无线移动Ad hoc网络,它为车辆间以及车辆与道路边的设备间提供通信服务。VANET作为一种新兴的无线Ad hoc网络,吸引了众多业
近几年来,随着以互联网为代表的计算机信息技术的普及,数据呈飞速增长的趋势,人们积累的信息量达到了TB级,甚至PB级。在现实生活中,许多数据是以动态的“连续数据流”的形式