论文部分内容阅读
包含文字和图片的文档作为信息的一种载体,能够极大地丰富信息的表现形式。针对传统计算图文相似度的算法效率不高的问题,提出一种图文组合相似度算法。将Jaccard相似系数引入余弦相似度,通过加权计算两文本的相似度,然后用感知哈希算法计算文档中图片相似度并找出最大值,再计算单个文档中所有图片相似度均值,与文本相似度加权求得文档的图文相似度。最后通过一个文档相似度查重系统验证了该算法能准确高效地完成文档之间相似度的量化,且优化后的相似度算法能够极大提高该系统的运行效率。