使用随机投影技术发现生物序列特征的算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:hongguoboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
比较数兆碱基的DNA序列是发现和标记保守的基因组特征普遍使用的技术,进行这样的比较可以发现长达几十兆的序列之间很多短的局部对齐。为有效地处理这样的长序列,已有的算法通过扩展短的、不含替换及其他不同之处的匹配碱基串来发现对齐。但是,精确匹配的碱基串太短,在重要的相似性中出现的这种匹配串也会偶然出现在背景序列中,因此对于不含长的精确匹配串的序列,算法必须平衡发现序列特征的效率和敏感性。 本文首先分析了两种降低相似搜索算法复杂度的方法:过滤试探法和确定的排除法。对于高于用户指定阈值的相似性,确定的排除算法确保具有100%敏感性。但是,对于相似度低,但实际上有趣的相同度水平65—70%的大规模全体成对问题,其敏感性不好。字匹配过滤试探法在实践中更有效一些,但其敏感性无控制地依赖于有趣的相似性中突变的分布,并且当相同度在67%左右时,其效率和敏感性显著衰退。 在分析以上两种方法的基础上,本文提出了一种新的算法:RP-ALL-PAIRS算法。该算法通过随机投影发现基因组序列中含有特定部分的替换的无间隔局部对齐。这些对齐的长度和替换率可以选择,使其在重要的相似性中出现频繁,而在背景序列中出现很少。RP-ALL-PAIRS使用位置敏感散列函数来获取DNA序列的随机投影。在位置敏感散列函数下,两个串投影值相同的概率直接随它们的相似度不同而变化。将随机方法应用于相似搜索打破了维的制约,在相似度低至67%的无间隔相同度时,得到比确定性的排除算法(如双过滤算法)本质上更好的性能。在实践中标记基因组特征时,RP-ALL-PAIRS和字匹配技术互为补充,使用它可发现用相对短的字长难以发现的生物学上有趣的相似性。 本文还分析了算法的性能,并在此基础上讨论了如何给RP-ALL-PAIRS选择最优化的参数及算法实现的细节问题,通过实验证实了RP-ALL-PAIRS发现DNA序列特征时取得了较好的效率和敏感性的平衡。
其他文献
并行计算是解决大规模科学计算的有效方法。随着计算机技术和网络技术的不断发展,人们已越来越倾向于用网络计算机机群代替巨型机来进行并行计算。在网络发展的同时,分布性、可
该文对基于数据挖掘的实现技术做了深入的研究,从整个系统角度出发,运用新兴的数据分析方法,探索开发智能化信息分析和决策支持工具的解决方案,主要研究成果如下:针对时序数
本文介绍了供应链管理的相关理论,并指出了供应链合作伙伴关系管理在供应链管理中的重要地位,然后分析了供应链合作伙伴关系管理的业务流程,讨论了合作伙伴评价体系的层次结构、
该文主要内容和贡献如下:1)针对视频点播等实时多媒体应用之类的多播业务,提出了一类多播路由算法.该类算法解决了以往算法中对多播树代价和时延条件顾此失彼的缺点,很好的权衡
几年前,VoIP还只是一小部分市场开拓者涉足的领域,而现在VoIP技术已经完全能够给用户提供一流的可靠的服务。为VoIP互操作特性制定的ITU-TH.323标准已经逐渐成为VoIP产品的事实
该文通过对超级并行机曙光-2000的学习使用,分析了当今并行编程/计算的现状,研究了并行编程模式的主流MPI--消息传递机制的原理及应用.并针对计算机科学与工程中大规模矩阵运
该文讨论了Internet体系结构及其服务质量的实现机制,提出了一种新的Internet体系结构:层次交换网络(HNET)体系结构,并在这个体系结构的基础上讨论了服务质量的实现机制.该文首
XML和它的各种扩展功能如数据模型、查询语言等是实现结构化方式的一种.使用扩展的标志语言XML,它是SGML的一个子集,是一种元语言,可以弥补很多HTML的不足.未来的网页会使用
本文以现代远程教育中的的多人协同课件制作需求为背景,以CSCW理论作为指导,探索性的采用XML来描述系统的数据模型,设计和实现了支持多人实时在线课件编写和装配系统CoCoursewar
针对现有电子选举方案中的上述不足之处,该文提出了对利用同态函数的K.J电子选举协议的一种改进,通过重新构造K.J协议中的主函数,使改进的选举协议具有防止出卖选票的性质,并