【摘 要】
:
常用的文档相似度计算方法主要包括集合模型方法、向量空间模型方法、潜在语义分析法等,这些方法仅利用文本信息计算文档相似度。然而,科技文档中包含着大量的非文本信息,如公式、图和表,从而使得原有方法已不太适用。本文提出一种基于文本和公式的科技文档相似度计算方法。该方法主要考虑科技文档中的文本和公式信息,在得到文本相似度和文档间公式相似度的基础上,利用线性组合方法得到科技文档相似度。在MREC数据集上的实
论文部分内容阅读
常用的文档相似度计算方法主要包括集合模型方法、向量空间模型方法、潜在语义分析法等,这些方法仅利用文本信息计算文档相似度。然而,科技文档中包含着大量的非文本信息,如公式、图和表,从而使得原有方法已不太适用。本文提出一种基于文本和公式的科技文档相似度计算方法。该方法主要考虑科技文档中的文本和公式信息,在得到文本相似度和文档间公式相似度的基础上,利用线性组合方法得到科技文档相似度。在MREC数据集上的实验结果表明,文本和公式方法在宏平均F1-score(MF)上最大可提高3%。结合公式信息计算科技文档相似度,不仅能有效提高科技文档相似度的准确性,而且可以实现跨语言科技文档的相似度计算。本文的主要工作包括:公式相似度计算方法有很多种,在不考虑公式变量的前提下,本文提出两种公式相似度计算方法。针对基于文本方法中未考虑公式特征元素有序性的问题,提出一种基于特征序列化的公式相似度计算方法。该方法有序提取公式的运算符、常量和括号作为其特征元素,将公式特征元素的位置映射为位置向量,通过计算位置向量是否相等得到公式相似度。针对混合方法中子树的无效匹配问题,提出一种基于有效匹配子树的公式相似度计算方法。该方法首先按先序遍历策略有序获得有效子树多重集,其次利用有效子树父节点的第一个孩子节点的交换性及有效子树是否已被匹配等信息,找到所有的有效匹配子树,最后综合考虑有效匹配子树的节点数和其所在解析树中的层次对有效匹配子树权重的影响,给出有效匹配子树权重计算方法,从而得到公式相似度。实验验证了有效匹配子树方法的有效性。为保证公式的一对一匹配和合理量化文档间公式相似度,提出一种基于KM算法的文档间公式相似度计算方法。该方法利用公式间的相似度,构建文档间公式的带权二部图,采用KM算法求带权二部图的最大权匹配,利用最大权匹配和文档间公式个数计算文档间的公式相似度。
其他文献
近几年,高等院校课程设置陈旧落后的情况日益突出,对于生物学专业来说,当前生物技术日新月异,高校生物专业对课程改革的需求相对于其它专业来说也更为迫切。文章针对高校生物
动态的市场不存在一个恒久不变的品牌,品牌老化趋势是每一个企业迟早要应对的严峻挑战。创新是走出品牌老化,使品牌生命不断得以延长的唯一途径。本文探讨了品牌创新的动因及
课堂教学行为作为教师素质的外在表现形式,直接影响着课堂教学的质量。由于教师所处的教学环境、经历的教学实践等方面有所差异,其课堂教学行为也存在很大区别。研究教师之间
<正>1 客观世界是复杂的,社会生活本身也是复杂的,环境创造了人,创造着人的性格及其全部的复杂性。这种复杂性正如马克思、恩格思所指出的,是“由于他的生活包括了一个广阔
目的:对一个遗传性蛋白C(PC)缺陷症家系进行实验室表型检测和基因突变分析,探讨其分子发病机制。方法:对先证者及其家系成员(共3代6人)进行血浆蛋白C活性(PC:A)、蛋白C抗原(P
本文论述根据函授教育现状及特点,基于计算机网络及多媒体技术,建立函授网络教学系统的应用需求与系统实现。
目的通过测定免疫正常人、β-内酰胺类药物过敏者以及非离子型造影剂过敏者血液中CD63、肥大细胞羧肽酶A3(MC-CPA3)、人末端补体复合物SC5b-9,探讨嗜碱性粒细胞活化试验(baso
铬渣、碱渣是化工生产过程中常见危险废弃物,处置不当会造成严重环境危害,采用固化填埋是安全环保有效的处置方法。本文通过铬渣、碱渣与水泥联合固化处理,减少了水泥的消耗,
青年志愿者活动对大学生思想道德教育发挥着重要作用,成为当前加强和改进大学生思想政治教育的有益途径。我国志愿服务工作起步较晚,面临着诸多制约因素。文章就高校如何加强
聚合酶链式反应(PCR)是体外酶促合成特异DNA片段的一种方法,它的发现和发展对生物学领域具有深远的意义。PCR反应中至关重要的部分是引物设计,引物的优劣直接关系到PCR的特异