【摘 要】
:
现实世界中的大量信息都可以表示为字符序列的形式,而求解多个字符序列最长公共子序列(MLCS)问题作为数据挖掘的一种具体技术,可以对大量的字符序列进行分析和处理,以便找到和发现有用的知识以及它们之间的内在联系,并将其应用于生物信息学、模式识别、文件比较和信息检索等领域。然而现有一些算法还普遍存在效率不高的问题,只能用来处理较为简单的MLCS问题。随着MLCS问题规模的增大,这些算法对运算时间和内存空
论文部分内容阅读
现实世界中的大量信息都可以表示为字符序列的形式,而求解多个字符序列最长公共子序列(MLCS)问题作为数据挖掘的一种具体技术,可以对大量的字符序列进行分析和处理,以便找到和发现有用的知识以及它们之间的内在联系,并将其应用于生物信息学、模式识别、文件比较和信息检索等领域。然而现有一些算法还普遍存在效率不高的问题,只能用来处理较为简单的MLCS问题。随着MLCS问题规模的增大,这些算法对运算时间和内存空间的消耗将会成倍甚至呈指数级增加,导致无法在有限的时间(空间)内求出最终结果。影响算法效率的根本原因在于,1)算法的搜索空间大,在求解过程中需要对大量重复、无用信息进行存储和计算,这消耗了大量的计算和存储资源;2)用于求解最长路径(对应于MLCS)的非支配排序技术十分耗费运算时间,而拓扑排序技术十分耗费内存空间;3)在基于图模型的求解算法中,存在大量的无用匹配点(即对最长路径的求解没有贡献)以及经过这些匹配点的非最长路径,而现有的技术无法及时地识别出它们并进行相应的剪枝操作。本文研究和分析了影响算法低效的根本原因,设计了多个高效算法以期能够处理更大规模的MLCS问题。现将本文的主要工作和创新点总结如下:(1)针对现有算法在构建DAG时存在图中节点重复出现及非最长路径不能动态删除等问题,提出了一个路径记录器有向无环图(PRDAG)模型和基于该模型的路径记录器算法(PRA)。在构建PRDAG时,设计了一个重复节点检查机制,可以利用哈希技术快速检测出某一节点是否已经存在于DAG中,若节点已经存在,则直接使用图中的节点进行操作,而不必再次将该节点放入图中,以保证DAG中不出现重复或冗余的节点。另外,图中所有节点只记录关键前驱节点,节点的层级值一旦更新之后,PRA算法会及时删除掉节点先前的前驱节点(现在已成为非关键前驱节点),相当于删除了非最长路径信息,这样DAG的大小(规模)就变得更小,从而节省大量内存空间和运算时间。(2)为解决内存消耗过多,以及基于非支配排序技术的算法耗费运算时间过多的问题,开发了层次递推有向无环图(HP-DAG)模型,并基于该模型提出了一种求解MLCS问题的高效算法EAHPM。该算法将从序列中寻找MLCS的问题转化为搜索DAG中最长路径的问题。设计的匹配点动态删除技术可以及时删除过时匹配点(这些匹配点在后续DAG构建中不再使用),同时,结合最长距离估计技术,检查匹配点是否为不可达匹配点,以减少DAG中匹配点的总数,从而达到降低算法时空开销的目的。(3)针对DAG的规模过大,图中的无用匹配点无法及时识别等问题,提出了一种基于分支消除的,在空间和时间上都十分高效的算法BEST-MLCS。BEST-MLCS算法设计了一种全新的基于上下界估计的无用匹配点判定技术和分支消除策略,即首先在算法的预处理阶段,通过一种启发式方法快速估计出MLCS长度的一个下界Lmlcs,然后设计了一个可以快速计算出经过某一匹配点的所有路径长度上界(记为U(O,p,∞))的方法,如果该上界U(O,p,∞)小于下界Lmlcs,则可以判断出该匹配点必定为一无用匹配点,经过该匹配点的所有路径都是非最长路径。在构建DAG的过程中,可以及时地把这些无用匹配点和经过这些匹配点的分支路径删除掉(即分支消除策略),所构建出来的DAG的规模非常小,极大节省运算时间和内存空间。(4)针对算法搜索空间大和图中节点数量过多等问题,提出了一种新的最小化图模型的Mema-MLCS算法。算法设计了一种计算匹配点跨度值的技术方案,通过比较匹配点的跨度值与MLCS长度下界值的方式,实现无用匹配点和非最长路径的及时删除。另外,Mema-MLCS只使用最有希望(即跨度值最大)的匹配点来构造DAG,而忽略其他的匹配点和不在最长路径上的分支,使生成的DAG的规模更小,因此,Mema-MLCS消耗的空间和所需运行时间相比其他算法要小得多,可以用来处理更大规模的MLCS问题。
其他文献
汽油中苯胺类物质的精准分析对于加强油品质量监管、环境保护等具有重要意义。红外光谱技术以其简便、快捷等优势,被认为是汽油添加剂检测的有效工具。然而,汽油成分的复杂性及环境因素干扰导致红外光谱技术检测过程中产生大量复杂光谱,如何消除无关光谱信息以实现汽油添加剂的准确定量分析是目前面临的难题之一。本论文基于汽油添加剂检测的现实需求出发,以苯胺类物质为研究对象,开展了红外光谱技术结合化学计量学的汽油中苯胺
<正>机械波的多解问题是高中物理的一个难点,也是历来高考中的热点.学生在求解机械波问题时,往往由于对波动的实质理解不深刻、对题目中隐含条件挖掘不透彻、对已知条件使用不全面等,常常会出现解答不完整而造成漏解.本文限于横波沿一条直线传播的情形,就常见的机械波多解问题通过剖析其成因进行归类例析,力求帮助大家掌握解决此类问题的方法.一、造成波动问题多解的原因有传播方向、波长大小、波形周期、质点振动方向、传
视觉目标跟踪作为人工智能中计算机视觉研究方向的一个热点及难点,被广泛地应用在军事国防、交通运输、医疗诊断和民用安全等各个不同的领域。其目的是仅在标定目标初始状态情况下,预测后续视频图像中目标的位置和尺度信息。现实跟踪场景中存在的遮挡、快速运动、剧烈形变、旋转和背景杂乱等挑战因素会导致目标外观改变,并且由于训练样本匮乏,致使设计一种高精确率、强鲁棒性的视觉目标跟踪算法仍然是一个极具挑战的开放性课题。
本文围绕海洋表层系统辐射传输特性的并行蒙特卡洛模拟算法及海洋表层系统光学特性进行研究。针对实际应用中遇到的问题开展了两方面的研究,即风驱粗糙海面光散射特性和海洋表层多组分水体(包含海水、海洋粒子、溶解有机物、气泡以及其它粒子等)中光的辐射传输特性。论文重点讨论了风驱粗糙海面光散射特性的信息传递接口(MPI)并行蒙特卡洛模拟算法,含气泡层多组分海水中光子传输的统一设备构架(CUDA)并行蒙特卡洛模拟
海气边界层是海洋及其上方大气边界层的统称,是海洋和大气物质、动量、能量交换的桥梁,昼夜变化剧烈,形态变化复杂,是对流层大气遥感中的难点。海-气边界层的遥感在天气预报、气象学、海洋经济保障以及海洋学等领域具有重要意义。微波辐射计是一种有效遥感海面参数与大气边界层参数的手段,其基于测得亮温与海面、大气参数的映射关系,由测量亮温反演得到海面参数与海上大气参数。本文深入开展了海-气边界层微波辐射特性、微波
随着高功率脉冲源、敏感电子元器件、宽带雷达观测技术的快速发展,有关粗糙面与上方目标近场耦合和远场散射的研究引起了国内诸多学者们普遍关注。在电磁问题的计算方法中,时域有限差分(Finite Difference Time Domain,FDTD)方法由于是对Maxwell微分方程直接求解的时域方法,并具有灵活处理复杂模型和介质的优势,因此,被大量地运用于瞬态辐射、耦合、散射的研究中。但利用传统FDT
随着科技的发展,电化学生物传感器已成为一种可靠的传感设备,是一种可以通过特定的生化反应,利用特定的基团、分离的酶、抗原、核酸分子链来检测化学生物分子的装置,可以将浓度、活性等待测信号转化为电信号(电流、电压、电容、电导等)的设备。这种传感器拥有分析时间短,操作简单,成本低,样品体积小等特点,拥有可重复利用和高灵敏度等优秀的表现,面对复杂的样品仅需要的前期处理简单。GaN作为第三代半导体材料,在电力
追踪候鸟的迁徙活动是全面认识其生活史年周期的重要途径。中杓鹬(Numeniusphaeopus)在全球广泛分布,但在东亚-澳大利西亚候鸟迁飞区的迁徙活动一直缺乏追踪研究。2018年2月,在澳大利亚西北部的布鲁姆为捕捉到的中杓鹬成鸟佩戴平台发射终端或全球定位系统-全球移动通讯系统追踪器,以确定其迁徙日程、迁徙路线以及迁徙停歇地和繁殖地的地理位置。我们从成功追踪的7只个体获取了6 378条精度高于1
高光谱图像具有光谱分辨率高、图谱合一的特性,已经在民用、军事等诸多领域得到了广泛应用。随着需求的不断增长,大量的遥感应用要求图像同时具备高光谱分辨率和高空间分辨率。然而在实际中,高光谱图像往往呈现出较低的空间分辨率,这限制了高光谱图像的精确解译和应用效果。全色传感器可以提供高空间分辨率的全色影像。因此,通过研究高效可靠的高光谱图像融合方法,将高光谱图像与全色图像进行融合以实现高光谱图像空间分辨率的