论文部分内容阅读
单词移动距离(word mover's distance,WMD)是最近提出的一种有效的文档相似性度量方式,其融合了Word2Vec词向量表达的语义信息,并依据推土机距离(earth mover's distance,EMD)计算文档间的距离。然而,单词移动距离存在两个缺陷:第一点是它采用不够精确的词频来作为单词的权重;第二点是单词移动距离度量下的查询效率很低。为了改善应用单词移动距离时的效果,考虑到单词的重要性而采用TF-IDF(term frequency-inverse docume