基于word2vec的中文文本相似度研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tiger5156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今网络得到普及的时代,特别是Web3.0的应用,越来越多的信息被编码成数字信息存储在网络上,包括各种论文和文献的存储。为了更好地对数据进行分类和查找,我们需要对不同的数据进行合理的存储和索引。为了对数据进行分类,我们需要对文本进行相似度比较。在众多的文本相似度判别方法中,最准确的方法是通过人工去对比两个文档之间的相似度,但是考虑到目前文本数量巨大,而且其增长速度随网络存储的应用呈现爆炸式增长,人工的检查方式已经变得不太现实。为此,开发一种在计算和识别速度上具有明显优势,并符合人为制定的相似标准,做到正确地、迅速到、健壮地判定文本相似度。文本相似度是许多应用的基础,如文本聚类、搜索引擎和论文查重的基础,所以文本相似度计算的准确性直接影响到这样应用的运行效果。如果能提高文本相似度的准确度,这样就能从互联网上搜索到更多更有用的信息,就可以把大量的文章更好地分门别类,使机器表现得更加接近人类的表达方式。为了能更接近这一目标,人们也在不断改进文本相似度计算的方法,希望能得到更加令人满意的结果。在过去,通用的文本相似度算法都是基于向量空间模型来展开,而且这种方法在应用之初表现效果不错,但是随着信息量的增长,这种方法的缺点也越来越明显。传统算法中有两大缺点。第一,无法识别意思相似或者相关的词语;第二,文本中词语的权重不合理,即文本中的核心关键词的重要程度与其他非关键词重要程度一样,而这是不合理的。所以如果能处理好着两大难题,文本相似度计算准确率也必将提高。本文将在传统算法的基础上对文本相似度算法进行改进。随着近几年不断的努力,许多研究人员也提出了许多改进的算法,其中不乏表现效果不俗的文章,在众多文章中,就有本文着重要提到的Word2vec。Word2vec的核心是词向量,即每个词语都有一个相对应向量,在计算两个词语的相似度时其实就是计算两个向量的余弦值。引入词向量后,可以识别两个字型不同但意思相似或相关的词语。而为了对文本中的词语重要程度分配不同的权值,本文引入了词频表,通过词频表就可以标记出一个文本中词语的权值,达到弱化非关键词语并且突出关键词语的效果。这样就能弥补传统相似度算法中的不足。
其他文献
可交换债券(Exchangeable Bond,简称EB)全称为“可交换他公司股票的债券”,可交换债券是一种内嵌期权的金融衍生品,是指上市公司股份的持有者通过抵押其持有的股票给托管机构
数学学习枯燥乏味,难度很大,这应该是大部分高中同学对数学学习的评价。那么为什么很多同学都不喜欢数学呢?或许数学不像语文课堂那么有故事意境,又或许不像化学那样有神奇,
期刊
新疆天山西部海拔800~1600m之间的逆温层,冬季气温比平原地区高,降水充沛,有着丰富的植物资源。在分析逆温层优越的自然条件的基础上,作者认为利用伊犁逆温层的适宜条件,开发
提出了一种新型的用于串联型有源电力滤波器(SAPF)的控制方法,这种控制方法的思路是控制由SAPF产生的补偿电压跟踪电源电流的K倍来实现电流谐波的抑制.因为控制参考信号直接通过
一年一度的学业水平测试被称之为小高考,同学們在复习时应该注意什么呢?笔者认为将主干知识的复习与生活联系在一起,能够有效带动知识、方法的复习,同时有效提升大家解决实际问题的能力。  一、联系生活中的基本运动模型  生活中有很多基本运动模型,可以以此为背景进行知识的复习与规律的研究。  例1在某驾校的训练场地上,有一段圆弧形坡道,如图1所示,  若将同一辆车先后停放在a点和b点,下列说法正确的是()。
近年来,随着人们生活水平的不断提高,受交通环境改善、机动车辆增加等因素的影响,农村中小学校采用校车接送学生的势头发展迅猛,学生交通安全也已被全社会所关注,学生的交通安全状
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的分析主动脉夹层的急诊特征与误诊原因。方法选取2011年12月至2016年5月收治的主动脉夹层患者25例为研究对象,对所有患者的主动脉夹层临床症状与误诊原因进行分析。结果 1
胰腺癌是一种恶性程度较高的肿瘤,其患病率在世界范围内呈上升趋势,西方国家恶性肿瘤死亡人数中,胰腺癌占第4位。仅次于肺癌、结直肠癌和乳腺癌。胰腺癌对神经组织的浸润被认为
圆是人类最先接触到的几何图形之一,我同战国时期的墨家学派的科学著作《墨经》就给圆下了准确的定义:“网(圆),一中同长也。”意思是说:圆足距离同一个中心等距离的点组成的网形。