论文部分内容阅读
随着社交网络和数字媒体技术的飞速发展,各种信息量每年以惊人的速度递增,文本、图形、图像、声音、视频等不同模态组成的多媒体文档,逐渐取代普通文档成为人们日常接受的信息呈现方式。如何高速有效的管理这些多媒体文档、如何从海量数据中快速准确的检索到用户需要的内容是目前亟待解决的问题。现有的多媒体信息检索方法是利用单一模态进行检索,这种方法具有歧义,难以准确的表达多媒体文档的语义。针对上述问题,本文提出了一种新的构思:将BOW(Bag of Words)向量表示的文本信息与BOF(Bag of Features)向量表示的图像信息进行多模态融合,并对二者采用一定的加权策略对多媒体文档进行检索。并针对传统BOW和BOF在表达文本和图像上的不足,分别对二者进行了改进。其中改进的BOW降低了码数的尺寸,提高了检索效率,而改进后的BOF减少了图像表达的歧义,增强了表达准确性。最后,在基于Lucene的文本检索系统和基于LIRe的图像检索系统上,本文对原始单模态检索、传统BOW和BOF融合的多模态检索、改进后的BOW和BOF融合的多模态检索进行了分析和对比。实验结果表明多模态融合综合考虑了文本和图像的影响,效果要高于单模态的多媒体文档检索。而改进后的BOW和BOF则进一步增加了检索的准确性,提高了检索的效率。