论文部分内容阅读
近年来,越来越多的研究人员发现ncRNA在生命过程中起着至关重要的作用。到目前为止,Rfam数据库中ncRNA还只有2028个家族,而发现的ncRNA数量也逐渐增多,但是有很多的ncRNA在Rfam数据库中找不到已知的类别。因此,给新的ncRNA序列找一个新的类别已成为研究的热门话题之一。而ncRNA序列聚类的效果与提取ncRNA序列信息的准确度息息相关。本文中,提出了两种方法获取ncRNA序列的信息,分别是λ矩阵法和成分比例法对序列特征化。序列之间的距离就转化成序列特征向量的欧式距离了,进而将序列间的距离简化了。文中采用了两种聚类算法对聚类数目未知的ncRNA聚类。第一种方法最临近规则试探法是在λ矩阵法的基础上聚类的,最后将ncRNA序列分为了10类。第二种方法蚁群算法是基于成分比例法聚类的,最终将ncRNA序列分为了23类。为了不让ncRNA序列信息的丢失,将这两种方法聚成的ncRNA类取交集,得到交集ncRNA类即D类和F类。由于F类只有一条序列,将其舍去。最后,对D类中序列进行二级结构预测。发现D类中的序列的二级结构的茎区长度分布相似,在一定的程度上说明D类序列的二级结构有一定的相似性。