基于word2vec的中文文本相似度研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：tiger5156

【摘要】

：

在如今网络得到普及的时代,特别是Web3.0的应用,越来越多的信息被编码成数字信息存储在网络上,包括各种论文和文献的存储。为了更好地对数据进行分类和查找,我们需要对不同的

【作者】

：

吴多坚

【出处】

：

西安电子科技大学

【发表日期】

：

2016年期

【关键词】

：

文本相似度向量空间模型(VSM) 词向量 Word2vec 信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在如今网络得到普及的时代,特别是Web3.0的应用,越来越多的信息被编码成数字信息存储在网络上,包括各种论文和文献的存储。为了更好地对数据进行分类和查找,我们需要对不同的数据进行合理的存储和索引。为了对数据进行分类,我们需要对文本进行相似度比较。在众多的文本相似度判别方法中,最准确的方法是通过人工去对比两个文档之间的相似度,但是考虑到目前文本数量巨大,而且其增长速度随网络存储的应用呈现爆炸式增长,人工的检查方式已经变得不太现实。为此,开发一种在计算和识别速度上具有明显优势,并符合人为制定的相似标准,做到正确地、迅速到、健壮地判定文本相似度。文本相似度是许多应用的基础,如文本聚类、搜索引擎和论文查重的基础,所以文本相似度计算的准确性直接影响到这样应用的运行效果。如果能提高文本相似度的准确度,这样就能从互联网上搜索到更多更有用的信息,就可以把大量的文章更好地分门别类,使机器表现得更加接近人类的表达方式。为了能更接近这一目标,人们也在不断改进文本相似度计算的方法,希望能得到更加令人满意的结果。在过去,通用的文本相似度算法都是基于向量空间模型来展开,而且这种方法在应用之初表现效果不错,但是随着信息量的增长,这种方法的缺点也越来越明显。传统算法中有两大缺点。第一,无法识别意思相似或者相关的词语;第二,文本中词语的权重不合理,即文本中的核心关键词的重要程度与其他非关键词重要程度一样,而这是不合理的。所以如果能处理好着两大难题,文本相似度计算准确率也必将提高。本文将在传统算法的基础上对文本相似度算法进行改进。随着近几年不断的努力,许多研究人员也提出了许多改进的算法,其中不乏表现效果不俗的文章,在众多文章中,就有本文着重要提到的Word2vec。Word2vec的核心是词向量,即每个词语都有一个相对应向量,在计算两个词语的相似度时其实就是计算两个向量的余弦值。引入词向量后,可以识别两个字型不同但意思相似或相关的词语。而为了对文本中的词语重要程度分配不同的权值,本文引入了词频表,通过词频表就可以标记出一个文本中词语的权值,达到弱化非关键词语并且突出关键词语的效果。这样就能弥补传统相似度算法中的不足。

其他文献

我国公司发行可交换债问题研究

可交换债券(Exchangeable Bond,简称EB)全称为“可交换他公司股票的债券”,可交换债券是一种内嵌期权的金融衍生品,是指上市公司股份的持有者通过抵押其持有的股票给托管机构

学位

可交换债卡森集团融资

伊犁逆温层的植物资源

新疆天山西部海拔800～1600m之间的逆温层,冬季气温比平原地区高,降水充沛,有着丰富的植物资源。在分析逆温层优越的自然条件的基础上,作者认为利用伊犁逆温层的适宜条件,开发

期刊

逆温层植物资源苹果

一种新型串联型有源电力滤波器无谐波检测控制方法

提出了一种新型的用于串联型有源电力滤波器（SAPF）的控制方法，这种控制方法的思路是控制由SAPF产生的补偿电压跟踪电源电流的K倍来实现电流谐波的抑制．因为控制参考信号直接通过

期刊

串联型有源滤波器谐波检测控制方法

基于“生活”的学业水平测试题分析

一年一度的学业水平测试被称之为小高考，同学們在复习时应该注意什么呢？笔者认为将主干知识的复习与生活联系在一起，能够有效带动知识、方法的复习，同时有效提升大家解决实际问题的能力。　　一、联系生活中的基本运动模型　　生活中有很多基本运动模型，可以以此为背景进行知识的复习与规律的研究。　　例1在某驾校的训练场地上，有一段圆弧形坡道，如图1所示，　　若将同一辆车先后停放在a点和b点，下列说法正确的是（）。

期刊

学业水平测试试题分析生活主干知识复习高考同学

当前农村校车交通安全管理存在的问题及对策

近年来，随着人们生活水平的不断提高，受交通环境改善、机动车辆增加等因素的影响，农村中小学校采用校车接送学生的势头发展迅猛，学生交通安全也已被全社会所关注，学生的交通安全状

期刊

交通安全管理幼儿园安全行车校车安全交通违法行为驾驶人存在的问题及对策

氟化钠对大鼠骨组织碱性磷酸酶和骨形态发生蛋白-2 mRNA表达的影响

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

氟化钠碱性磷酸酶骨形态发生蛋白-2

我国古代数学家对圆周率的推算与使用

圆是人类最先接触到的几何图形之一，我同战国时期的墨家学派的科学著作《墨经》就给圆下了准确的定义：“网（圆），一中同长也。”意思是说：圆足距离同一个中心等距离的点组成的网形。

期刊

圆周率数学家推算古代几何图形《墨经》科学著作墨家学派

基于word2vec的中文文本相似度研究与实现

其他学术论文