【摘 要】
:
web2.0时代的到来,不仅为互联网和计算机科学领域带来了海量数据,还带来了新的数据类型。树结构正是这些新出现的数据类型的一种,它在计算机科学、语言学、生物学、图形学等领域的数据组成上占有重要的地位。而在这些领域中,用户更想通过度量不同树结构数据之间的相似性来完成一些特定检索、匹配等任务。但目前树结构相似度计算方面仍然存在着许多挑战:一、数据量大导致计算耗时严重;二、算法运行占用空间大;三、计算结
论文部分内容阅读
web2.0时代的到来,不仅为互联网和计算机科学领域带来了海量数据,还带来了新的数据类型。树结构正是这些新出现的数据类型的一种,它在计算机科学、语言学、生物学、图形学等领域的数据组成上占有重要的地位。而在这些领域中,用户更想通过度量不同树结构数据之间的相似性来完成一些特定检索、匹配等任务。但目前树结构相似度计算方面仍然存在着许多挑战:一、数据量大导致计算耗时严重;二、算法运行占用空间大;三、计算结果误差大。虽然针对上述树结构存在的问题,已经提出了很多算法,比如树编辑距离算法,树核算法以及利用数据特性的算法等等,而这些算法也对该问题的解决起到了一定的作用,但是却仍然存在着一些其他问题。对于无序树结构,树编辑距离算法是NP-hard问题,其他算法却又存在着误差大、计算耗时,占用空间大的问题;而对于有序树结构,树编辑距离算法被证明时间复杂度最低只能为立方时间,其他算法也由于难以捕获结构信息,导致计算精确度较低。针对上述问题,本文主要做了下面两部分的研究工作:(1)针对无序树结构数据,提出了一种基于最小哈希算法的保结构的子路径签名算法。而本研究的创新点为:1)提出了一种保结构的子路径签名算法,可以将树结构数据转换为一个具有保结构特性的子路径签名,然后利用其计算相似度。同时通过理论证明了它的保结构特性;2)利用了最小哈希算法,可以较好地解决数据量太大导致的计算耗时的问题,并降低了运行的占用空间。(2)针对于有序树结构数据,提出了基于子路径签名算法的多维序列算法。在本研究中,创新点包括:1)将多维序列框架与子路径签名算法结合,实现了序列相似度快速计算;2)利用动态时间规整算法将树结构的空间信息得到使用,使计算出的相似度结果更准确。
其他文献
图匹配是用于在图结构数据中进行高效查询的一种技术,其广泛应用在生物信息学、知识图谱、计算机视觉等领域。相较于传统图匹配算法,基于机器学习和深度学习的方法将匹配任务描述为最小化能量函数问题,利用构建的模型自适应学习图的特征并修正参数,整个过程更加智能高效。然而,现有的无监督学习匹配算法中存在随机性强的问题,导致结果不稳定,以及监督学习算法中人为构造的特征存在不准确的可能性,从而导致匹配结果准确度较低
合流区作为最常见快速路瓶颈类型,是主线车流与匝道汇入车流交汇区域,车辆间冲突影响严重,致使拥堵、事故等交通问题频出。本研究以中国江苏省南京市应天大街快速路高架为研究对象,利用无人机航拍以及视频图象目标检测技术获取高精度车辆时空轨迹数据,结合快速路入口匝道合流区瓶颈交通拥堵特性,从宏微观角度分析车辆时空轨迹特征,交通流三参数的时变特性以及相互关系特性,辨识通行能力下降点及交通相变转捩特征点,深入理解
随着雷达和通讯等领域的不断发展,波束扫描阵列天线在这些领域获得了广泛的研究和应用。其中,频率扫描天线是一种辐射主波瓣随工作频率的变化而改变其指向的典型行波天线,它具有结构简单、辐射口面大和制作成本低等优势,在雷达探测、航天航空以及汽车防撞系统等应用领域起着重要作用。然而,普通频扫阵列天线存在波束扫描角度小、尺寸大、重量重等缺陷,本文针对上述不足,对小型化、低剖面、宽角扫描的频率扫描阵列天线展开了研
IGBT(Insulated Gate Bipolar Transistor)器件具有大电流、高功率、易驱动的特点,广泛应用于高压输电、交通运输、家用电器、军事设备与航天航空等领域。IGBT器件漂移区内存在的电导调制效应,使得器件导通时,拥有较低的导通压降Von;器件关断时,漂移区内大量非平衡载流子会使器件出现关断电流拖尾,导致过大的关断损耗Eoff,两者之间存在矛盾关系。目前,IGBT器件重点关
决策目标通常伴随着多种属性和特征,在描述这些属性和特征时,由于人们的知识结构和水平层次不同,每个属性的好坏有时很难被准确地衡量,而模糊本体描述恰好可以解决这个困境。在为用户做推荐的过程中,推荐系统会面临两个问题:一是推荐内容中会存在诸多不确定信息且有的推荐内容会同时包含精确性和模糊性,传统的模糊集理论并不能很好地描述推荐内容知识中的语义信息;二是现有推荐算法难以处理单一实体下的多重得分关联问题。针
可穿戴设备的应用已经逐渐步入我们的日常生活,但是可穿戴设备通信时存在着多径衰落效应,而极化分集技术是改善多径衰落效应的一种手段。本文以此展开探究,首次提出将极化分集天线应用于可穿戴天线中,研究基于微带天线和微带缝隙天线的全织物极化分集天线。具体研究内容如下:1、全织物微带极化分集天线研究。该天线采用常规贴片天线设计方法将贴片设置为方形贴片,采用微带线结构在贴片相邻两边的中间位置对其馈电,并采用四分
根据世界卫生组织(World Health Organization,WHO)的最新流调数据显示,糖尿病已经和心血管疾病、肿瘤一样成为危害人体健康的三大疾病之一,对糖尿病患者的治疗显得越发重要,而目前临床上对糖尿病的治疗过程中医生需要时刻知悉糖尿病患者的胰岛素水平情况,以便掌握临床上的用药及治疗效果,因此临床上对糖尿病患者的胰岛素测量及评估具有重要的意义。本文针对糖尿病患者的胰岛素测量机理进行了深
超透镜天线(Metalens antennas)由于其高增益、剖面低等特点得到广泛关注。但是超透镜天线存在着带宽窄、设计复杂等缺点,限制了超透镜天线的应用范围。本文致力于研究具有宽频带和高增益特性的超透镜天线。本文主要研究内容如下:设计并研究了一款宽带高增益金属超表面透镜天线。根据透镜天线的性能要求,得到阵面的相位补偿特性,将阵面设计为3bit相位分布,从而得到阵面各单元的理想相位曲线。针对阵面不
糖尿病被称为一种多病因的代谢类疾病,具体指由于体内胰岛素的分泌或作用产生缺陷,从而导致人体由于血糖、脂肪和蛋白质的代谢紊乱所造成的疾病。糖尿病逐渐成为继心脑血管疾病、肿瘤类疾病之后第三大威胁人类生命健康的慢性疾病。随着《“健康中国2030”规划纲要》的提出,人们愈发重视自身的健康程度,但受限于现阶段的医疗技术,糖尿病尚无有效的治疗手段,只能通过外界注射胰岛素进行缓解与控制。因此,对血糖进行及时而又