一种改进的基于Hash算法及概率的k-mer索引方法

来源 :通信电源技术 | 被引量 : 0次 | 上传用户:lan_lang_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章基于k-mer编码建立了Hash线性索引模型。其基本思想是统计碱基字符出现的频数,将字符进行哈弗曼编码以得到最短的字符编码方式,然后使用该编码方案对k-mer碱基串进行编码,最后得到唯一的Hash值。根据k值的大小,建立相应长度的Hash表,在每个Hash位置下以链表的形式挂接位置信息,从而建立了索引模型。提出一种将四叉树进行编码压缩的索引方案——"线性Hash编码索引模型",消除了四叉树索引模型中父节点内存浪费问题。同时,查询速度从树形的O(log4^n)降到了线性的0(1),得到很大地提高。
其他文献
在系统归纳总结塔里木盆地西部、西昆仑、中亚天山和帕米尔等地区的构造、地层、古地磁学、地球化学及含油气盆地等最新研究成果的基础上,分析自中生代以来对塔里木盆地西部
本文对青岛远洋船员职业学院驾驶10级、11级两个班的学生进行心理因素问卷调查,根据调查结果对10级实验班学生进行分组,实施航海英语差异性口语教学。研究结果表明,学生心理
随着人类对空间科学的不断探索,空间科学技术得到迅速的发展,各种空间科学数据也随之产生并日益增加。为了使空间科学数据更好地为人们服务,提供一个空间科学数据服务平台很