聚类数目未知的ncRNA聚类分析

来源 :河北科技大学 | 被引量 : 2次 | 上传用户:wangwenhu8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,越来越多的研究人员发现ncRNA在生命过程中起着至关重要的作用。到目前为止,Rfam数据库中ncRNA还只有2028个家族,而发现的ncRNA数量也逐渐增多,但是有很多的ncRNA在Rfam数据库中找不到已知的类别。因此,给新的ncRNA序列找一个新的类别已成为研究的热门话题之一。而ncRNA序列聚类的效果与提取ncRNA序列信息的准确度息息相关。本文中,提出了两种方法获取ncRNA序列的信息,分别是λ矩阵法和成分比例法对序列特征化。序列之间的距离就转化成序列特征向量的欧式距离了,进而将序列间的距离简化了。文中采用了两种聚类算法对聚类数目未知的ncRNA聚类。第一种方法最临近规则试探法是在λ矩阵法的基础上聚类的,最后将ncRNA序列分为了10类。第二种方法蚁群算法是基于成分比例法聚类的,最终将ncRNA序列分为了23类。为了不让ncRNA序列信息的丢失,将这两种方法聚成的ncRNA类取交集,得到交集ncRNA类即D类和F类。由于F类只有一条序列,将其舍去。最后,对D类中序列进行二级结构预测。发现D类中的序列的二级结构的茎区长度分布相似,在一定的程度上说明D类序列的二级结构有一定的相似性。
其他文献
在现代物理学的研究中,出现了许多非线性发展方程.电报方程就是从研究电报线上电压和电流的变化规律推导出来的,它描述了均匀传输线上电压和电流的关系,所以又被称为传输线方程.
本文主要研究了驱动–响应结构下的布尔网络的完全同步化,其中驱动系统是一个周期性时变的布尔网络.对于上述问题,本文基于逻辑系统的代数形式下分两种情况讨论.对于每种情况
可靠性分析是统计学的一门重要分支,有着较强的应用性,因此受到了工程界等的高度重视。在实际的工作和生活中我们经常会遇到可靠性问题,例如,我们在购买电视机等家用电器时都想要
图染色理论和极值图论是图论中非常重要的两个研究课题,在计算机科学、信息安全以及模式匹配等领域有着广泛的应用。在本文中,我们主要讨论了以下几类图染色问题以及3-一致超图
近年来,关于时间分布阶扩散方程的研究得到了广泛的关注,许多扩散指数随时间变化的复杂扩散过程,如减速的慢扩散和加速的超扩散、减速的超扩散和加速的慢扩散等,都可以用这类方程
科学的飞速发展已经使人类开始探究生命的奥秘,包括人类自己。近几十年来,随着人类基因组计划的实施和完成,分子生物学发展的一个重要特点是生物数据的爆炸式增长。面对呈指数增
本文是基于“农超对接”供销模式研究的供应链,“农超对接”,即超市从农户(或合作社)处直接采购农产品,超市需要什么,农户就直接生产什么。这样农户可以避免盲目种植,解决农户销售难的问题,也可以减少流通环节,降低流通成本,以及帮助超市稳定货源、吸引顾客等。在食品安全事故频发和生活水平不断提高的大背景下,人们越来越重视食品安全问题。当消费者购买产品时,倾向于购买更安全、更健康、更有营养的绿色农产品。但是相
本文简要介绍了复合型电气火灾监控系统基本组成及在天津西交通枢纽中的成功应用,并总结出针对交通枢纽的复合型电气火灾监控系统方案。 This article briefly introduces t
在本文中,考虑时间变分数阶扩散方程,其模型如下:{RLDα(x,t)0,tu(x,t)=(a)2u(x,t)/(a)x2+f(x,t),x∈(0,L),t∈(0,T],u(x,0)=φ(x),x∈[0,L],u(0,t)=ψ1(t),u(L,t)=ψ2(t),t∈(0,T],其中0<α≤α≤(
作为微积分理论的发展,人们早已提出了分数阶微积分的概念.因分数阶微积分在各个领域中越来越广泛的应用而受到了很多学者的关注和研究,相对于整数阶微积分模型,利用分数阶微积