基于抽象语法树的短文本相似度研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:fly_bird2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的不断发展,文本成为了信息的主要载体。因此,中文信息处理成为自然语言处理的一个重要研究领域。文本相似度计算作为中文信息处理的一个研究方向,它在智能阅卷、文本匹配、机器翻译、信息检索等领域有着广泛实际的应用。文本相似度计算包含文本词语划分,语义分析,语法规则分析,构建文本相似度计算模型等。通过阅读大量有关文本相似度计算的文献,进行总结,提出了利用抽象语法树进行文本相似度计算的新思路。本研究包括三部分。首先,采用了一种基于最小信息量的中文分词方法,它是以统计学为基础,在对中文文本进行分词时,不需要提前获取词库中每个词语的先验统计信息,能够在仅有词库的条件下,实现高效分词,获得准确率较高的分词结果。然后,对中文文本进行了结构化的表示。在中文分词的基础上,对分词结果进行了词法分析、语法分析,构建出了基于中文文本的抽象语法树;最后,对近年来已有的文本相似度计算方法进行了总结和分析,提出了基于抽象语法树的短文本相似度计算方法。此方法主要是以抽象语法树为基础,结合向量空间模型的计算方法,进行文本相似度计算,使计算结果更加准确。
其他文献
随着经济全球化的发展和国内农业机械的激烈竞争,越来越多的农业机械企业积极拓展海外市场,欧洲作为农业发达地区,农业机械化水平高,农业机械需求量大,是国内农业机械企业重点开拓的市场。L重工在欧洲市场经过数年发展,已取得了一定的成绩,但也面临着一些问题,加强欧洲市场的营销力度,对于提升L重工的国际知名度和综合实力起着重要的意义,也是L重工需要重点考虑的议题,本文旨在通过对L重工欧洲市场的营销现状和问题分
服装图像分割研究是指在某张带有服装的自然图像上对服装部分的形状进行检测识别并将其轮廓提取出来等内容。由于人工辅助进行特征抽取算法的限制性,并且在目前还存在着缺少
中国与巴西同为金砖国家,两国双边贸易频繁,互为彼此重要的贸易伙伴,多年来中国一直频繁遭受着巴西的反倾销调查。2013年9月,巴西对其反倾销条例做出了大幅度的修改。在此背
相比于H.264/AVC,由ITU-T和ISO/IEC联合提出的新一代视频编码标准HEVC在保有出色的客观编码质量的同时,实现了压缩效率上的巨大提升。这主要是由于HEVC采取了新的编码优化技
针对大气颗粒物(PM2.5)化学性质的研究对一个地区大气污染的管控极为重要。本次研究中我们通过一系列的离线分析技术对扬州地区采集获得的PM2.5石英滤膜样品进行了化学分析,
目的:研究旨在制备新型双分支果糖修饰的紫杉醇脂质体,利用双分支果糖配体与乳腺癌细胞膜上GLUT5之间的高亲和力,介导内吞入胞,释放紫杉醇,并验证双分支果糖修饰在单果糖配体
水是人类社会的重要组成部分。水资源的分布不均衡、供给不协调、恣意浪费与水体污染等都掣肘城市的发展。城镇化进程速率的加快使得水资源短缺和用水结构不均衡的问题逐渐凸显出来。解决用水紧张,优化用水结构已经成为一个重要的课题。本文选取沈阳市2001-2018年间人口、经济、社会发展及各行业用水数据等进行实证分析评价,针对城镇化水平的影响因素选取12个指标,针对用水结构的影响因素选取10个指标,对城镇化的5
调制方式识别技术是通信系统中的关键技术之一,它影响着人民生活和国家发展的方方面面,被应用到民用、军事等许多领域。通讯需求的多样化以及通信环境的复杂化促使调制方式不断地被更新,这无疑给调制方式识别技术带来了严峻的挑战。识别授权用户信号的调制方式是认知无线电技术的首要任务,随着第五代移动通信技术(5th-Generation,5G)的商用,认知无线电技术作为5G的关键技术对调制方式识别技术提出了新的挑
随着经济的不断发展,市场竞争日益激烈。各种产品的生命周期越来越短,更新迭代越来越频繁。企业生产率的水平高低直接地影响着一个公司的生产管理和运营绩效,提高企业生产率对于企业的生产管理和运营绩效的影响越来越大,所以一个企业必须从其生产经营管理的战略全局的角度出发,选择一个能够适应于本企业可持续发展所需要的高效的生产率模式。企业生产率是决定企业的生存和经济持续发展的重要因素和指标之一,结合注塑加工行业的
2010月11月,随着创业板上市公司大股东限售股解禁日期的到来,以“银江股份”为代表的首批创业板上市公司遭遇大股东的减持。此举拉开了上市公司大股东减持的序幕。创业板成立