基于部分-整体匹配的文档结构相似度计算

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:fangzhang004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的计算数字文档之间的结构相似度(DSS)的方法是基于树的编辑距离或 Fourier 变换.本文提出利用查询问题的结构化描述树 Q 与文档元数据描述树 T 之间的部分-整体匹配求解 DSS.给出用字符串表示有向标记树的方法,并把上述树之间的相似度计算转化为对应 Q 和 T 的字符串表示之间的匹配计算,从而导出高效的DSS 算法.实验表明,对给定的结构化查询,本文算法在查全率和查准率上优于树编辑距离算法. The traditional method to calculate the structural similarity (DSS) between digital documents is based on the tree edit distance or Fourier transform.This paper proposes that the part between the structured description tree (Q) and the document metadata description tree (T) Matching Solves DSS. We present a method of representing a directed labeled tree with strings, and convert the similarity between the above trees into a matching calculation between the string representations corresponding to Q and T to derive an efficient DSS algorithm. Experiments show that for a given structured query, the proposed algorithm outperforms the tree edit distance algorithm in look-up rate and precision.
其他文献
目的探讨异基因造血干细胞移植(allo-HSCT)治疗慢性粒细胞白血病(CML)的疗效及预后因素分析。方法选择104例CML患者,采用Bu+Cy、改良Bu+Cy、TBI+CY及非清髓方案预处理后行all
民俗文化是新农村文化建设的重要内容,近年来,农村建设的进程加快,新农村建设中的涉及到一个重要问题,那就是民间民俗文化的传承与保护.本文作者在对河北邢台县的新农村建设
上海文化、江苏文化和浙江文化均属于江南文化,基本特征非常相似,正所谓文化相通,这些相似的内容构成了长三角区域文化的基本特征。长三角区域文化在长三角区域创新系统中的
介绍了"企业架构"及"企业架构治理"的起源与发展,从华东电网有限公司"IT治理"现状出发,提出了适应公司"智慧企业"发展的涵盖企业架构——IT项目实施——IT服务3个层级的"一体
当今的在线视频网站如优酷、腾讯视频等发展的如火如荼,为了将网络上的内容带到传统电视,各大硬件厂商纷纷推出流媒体电视盒,比如苹果TV,谷歌Q,盛大盒子,小米盒子等.此外开源
在演化博弈的基础上对不同情况下的发电侧企业的博弈支付进行假设,分析动态过程,得到了相应的演化稳定策略,由分析结果得出在市场统一清除价的情况下,市场倾向于发展到较低价
投资控制关系到建设工程项目的成功与否,是工程项目控制的重点难点.本文主要从建设单位对项目投资的控制就是在满足项目合理的质量标准的前提下出发,分析研究了如何在投资决
目的 了解(简称"")实施10年社会投入总成本与社会产出总的经济价值,进行成本-效益分析.方法 选取中黑龙江省数据及数据,对10年的数据汇总并利用Excel 2007进行分析.社会总成
提出了一种新的故障跟踪估计器来诊断高压直流输电(HVDC)系统中的故障.考虑到随机噪声对测量结果的影响,首先采用协同(Consensus)滤波器对HVDC系统的输出滤波,然后根据HVDC状
轨迹灵敏度刻画系统中某一参数、初始条件发生微小变化时系统动态轨迹的变化程度.轨迹灵敏度已应用于参数辨识、动态安全分析等电力系统研究领域.直接由定义计算轨迹灵敏度通