论文部分内容阅读
在如今网络得到普及的时代,特别是Web3.0的应用,越来越多的信息被编码成数字信息存储在网络上,包括各种论文和文献的存储。为了更好地对数据进行分类和查找,我们需要对不同的数据进行合理的存储和索引。为了对数据进行分类,我们需要对文本进行相似度比较。在众多的文本相似度判别方法中,最准确的方法是通过人工去对比两个文档之间的相似度,但是考虑到目前文本数量巨大,而且其增长速度随网络存储的应用呈现爆炸式增长,人工的检查方式已经变得不太现实。为此,开发一种在计算和识别速度上具有明显优势,并符合人为制定的相似标准,做到正确地、迅速到、健壮地判定文本相似度。文本相似度是许多应用的基础,如文本聚类、搜索引擎和论文查重的基础,所以文本相似度计算的准确性直接影响到这样应用的运行效果。如果能提高文本相似度的准确度,这样就能从互联网上搜索到更多更有用的信息,就可以把大量的文章更好地分门别类,使机器表现得更加接近人类的表达方式。为了能更接近这一目标,人们也在不断改进文本相似度计算的方法,希望能得到更加令人满意的结果。在过去,通用的文本相似度算法都是基于向量空间模型来展开,而且这种方法在应用之初表现效果不错,但是随着信息量的增长,这种方法的缺点也越来越明显。传统算法中有两大缺点。第一,无法识别意思相似或者相关的词语;第二,文本中词语的权重不合理,即文本中的核心关键词的重要程度与其他非关键词重要程度一样,而这是不合理的。所以如果能处理好着两大难题,文本相似度计算准确率也必将提高。本文将在传统算法的基础上对文本相似度算法进行改进。随着近几年不断的努力,许多研究人员也提出了许多改进的算法,其中不乏表现效果不俗的文章,在众多文章中,就有本文着重要提到的Word2vec。Word2vec的核心是词向量,即每个词语都有一个相对应向量,在计算两个词语的相似度时其实就是计算两个向量的余弦值。引入词向量后,可以识别两个字型不同但意思相似或相关的词语。而为了对文本中的词语重要程度分配不同的权值,本文引入了词频表,通过词频表就可以标记出一个文本中词语的权值,达到弱化非关键词语并且突出关键词语的效果。这样就能弥补传统相似度算法中的不足。