有向基因组复合操作重组排序算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:hyperpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
比较基因组学是生物信息学的一个重要研究分支,计算两个基因组的量化距离是比较基因组学的基本问题,应用于构建进化树、探索基因功能、分析疾病致病原理等实践中。基因组是一个染色体集合,染色体为一个基因序列,每个基因表示为一个整数。基因组分有向和无向两种数据形式,每个基因相对所在染色体中的相邻基因,均有两个方向,在有向基因组中,采用“+”和“-”分别表示-个基因的两个方向。基因组的重组揭示了基因组改变基因排列次序的行为,在基因组重组排序问题中表述为改变基因排列次序的操作,有翻转(Reversal)、移位(Translocation)、转位(Transposition)等基本形式。给定两个基因组A、B,基因组重组排序要求寻找将A转化为B的一组有序操作,最小化操作次数,将A转化为B的最小重组次数即为A与B的重组距离。沿着由简而繁的路线,人们讨论了多种形式的基因组重组排序问题,和它们的算法与复杂性。Bafna和Pevzner首先给出有向基因组翻转排序近似度为1.5的多项式算法,Hannenhalli和Pevzner设计出O(n5)时间精确算法,Kaplan、Shamir和Tarjan将算法时间复杂度改进为O(n2)。对于基因组的移位排序问题,Hannenhalli首次设计出O(n3)时间精确算法,朱大铭和马绍汉将该算法的时间复杂度改进为O(n2logn),王鲁生、朱大铭、刘晓文和马绍汉进一步将算法的时间复杂度改进为O(n2),李国君、亓兴勤、王骁力和朱滨海给出了计算移位距离的O(n)时间算法。对于基因组转位排序问题,Bafana与Pevzner最早给出近似度为1.5的O(n2)时间算法。Hartman和Shamir又给出近似度为1.5的更为简洁的近似算法。Elias和Hartman将近似度改进为1.375。最近Bulteau、Fertin和Rusu证明该问题是NP-hard问题。我们将包含多种操作形式的基因组重组排序称为基因组的复合重组排序问题。因复合重组排序更具一般性,所以显得更有应用价值。Walter、Dias和Meidanis给出基因组的翻转和转位排序近似度为2的近似算法。Gu、Peng和Sudborough给出了基因组的翻转、转位和反转位排序问题近似度为2的近似算法。Hartman和Sharan给出基因组的翻转和反转位排序问题近似度为1.5的近似算法。Hannenhalli和Pevzner设计出基因组的翻转和移位排序问题的多项式时间精确算法。尹晓和朱大铭给出这一问题的一个新多项式算法。尹晓和朱大铭于2010年设计出基因组的移位、分断和连接排序的精确算法,时间复杂性为O(n(?))。人们还发现在基因组的重组演化中,伴有插入与删除基因片段的动作,许多分子生物学实践需要人们在基因组中实施插入与删除基因片段的操作。亓兴勤、李国君、李曙光等首次讨论了有向基因组的移位和删除排序问题,他们给出了有向基因组移位和删除排序的多项式算法,近似度达到OPT+2, OPT为两个基因组的移位删除距离。另外,亓兴勤、李国君、李曙光等描述了基因组的移位、插入和删除排序问题,并给出了解决该问题的一个启发式算法。我们仍然讨论有向基因组的移位、插入与删除排序算法。问题的输入数据为两个有向基因组A和B,移位删除排序要求寻找将A转化为B的移位、删除操作序列,使移位、删除次数最小化;移位插入删除排序问题要求寻找将A转化为B的移位、插入、删除操作序列,使移位、插入、删除次数最小化。首先讨论有向基因组移位和删除排序问题的求解算法。仍然利用圈图表达两个基因组的基因排列次序差异。圈图中含有一种被称为极小子排列的特殊结构子图,其数目和相对位置是影响有向基因组移位删除距离的关键因素。可将圈图中的极小子排列和它们相邻关系表示为一个森林。我们进一步根据圈图中描述极小子排列的森林的不同结构特征,分34种情况分别给出了有向基因组移位删除距离的精确数值。亓兴勤等给出的移位删除距离含有基因数目、染色体条数、圈的数目、偶隔离带存在性和极小子排列奇偶性辅助参数、间接圈数目、间接极小子排列数目,共6个参数。我们重新观察了圈图结构性质,引入两个新的特征参数:不可消除间接极小子排列数和打破间接极小子排列的间接普通圈数后,把所有情况下最小的移位删除次数统一为移位删除距离计算公式。推导移位删除距离公式的过程,自然地给出基因组的移位删除精确算法。(第3章)有向基因组移位插入删除排序求解,可先利用移位删除算法构造一个中间基因组,然后将源基因组由插入操作得到中间基因组,再调用移位删除算法将中间基因组变换为目标基因组而完成。由有向基因组的移位删除距离公式,我们给出了有向基因组移位插入删除距离的计算公式。(第4章)继续讨论了包含副本染色体和副本基因的有向基因组翻转,移位,转位,块交换,分断,连接排序的求解方法。划分为删除副本、同尾化基因组、规范化基因组重组排序三个功能模块,得到基因组复合重组排序的一个实用计算软件。最后给出初步的实验结果。(第5章)本文创新点可以归纳如下:1).首次给出了基因组的移位和删除距离公式,并给出求解该距离值及对应重组序列的一个多项式时间精确算法。2).将有向基因组移位和删除排序的时间复杂度由O(n3)时间改进到O(n2)时间。3).首次给出了基因组的移位、插入和删除距离公式,同时给出有向基因组移位插入删除排序的一个新多项式时间精确算法。
其他文献
在计算机辅助几何设计(Computer Aided Geometric Design, CAGD)中,曲线和曲面有两种基本的表示方法:参数形式与隐式形式。这两种表示方式在实际应用中有着各自的优缺点,例如:
网络技术是目前社会普遍用来提升工作效率的技术,通过网络化作用,可以有效打破时空的界限实现区域的协同化工作。目前,在网络技术的基础上,自组网络体系被广泛利用,这种自组
随着图形化用户界面GuI(Graphic user Interface)的广泛应用和计算机网络的迅速发展,实时的桌面图像序列传输技术正得到越来越广泛的关注,在网络多媒体会议、产品演示、远程
<正>诗歌被称为"语言艺术皇冠上的一颗明珠",诗歌语言的精妙构成了诗歌艺术的基石,因此对诗歌精妙语言的鉴赏应该是诗歌审美的关键。2016年《中学语文教学参考》编辑部组织的
随着技术的不断发展和应用需求的变化,人们对分布式关键任务系统的可用性要求越来越高,不仅希望系统能够保障关键业务数据信息的完整性,而且具有不间断运行或者即使失效发生
传统的三阶LCL滤波器存在谐振尖峰问题,文中基于LCL滤波器提出外环使用准比例谐振和改进型重复器为核心的控制系统,内环使用陷波器无源阻尼法。QPR可以实现无静差跟踪,改进重
本文利用速度变换矢量图对光滑地面上小物体从光滑斜面下滑的运动进行分析,结合三角形的基本原理,即可得到小物体为匀加速直线运动。给学生提供了一种速度变换的简单直观方法,以
介绍了日本著名枯山水庭院东福寺方丈庭院的历史背景,分析了其东西南北四处小庭的设计手法和理念意趣,表述了造园大师重森三玲将传统风格与时代特质有机结合的设计精神。