论文部分内容阅读
社交媒体作为一种互联网时代的大众媒体工具,其在一定程度上避免了传统媒体所具有的传播平台单一以及传播渠道狭窄等缺陷,为现时代中国社会的发展带来了巨大影响,同时由于社交媒体能够在短时间内形成巨大的舆论场,因此其已成为突发事件的主要话语集散地。目前对社交媒体的相关研究大多基于文本信息开展,而在众多传播媒介中,具有直观性和易传播性等特点的图片在突发事件信息的表达与传递方面具有举足轻重的作用。因此,检索特定突发事件下的相关图片对突发事件信息分析及辅助政府决策具有重要作用。
本文对突发事件相关图片的采集研究主要从突发事件信息获取以及图片事件相关性判定两方面入手。首先,面向新浪微博提出一种基于查询扩展的突发事件相关信息获取方法。该方法基于种子查询词不断扩展特定突发事件下的查询项,进而获取不同查询项下的相关信息,通过查询扩展的迭代进行,可以实现在新浪微博平台布尔检索及限定信息获取条件下对突发事件相关信息召回的提升,保证了候选图片的查全率。其次,本文将社交媒体突发事件下相关图片的识别问题转换为不同检索查询项下相关图片的识别问题,提出一种基于Attention注意力机制的融合图文多模态信息的图片事件相关性判定模型。该模型分别用BERT和ResNet网络结构提取文本特征和图片特征,同时考虑对各模态内特征信息的抽取和跨模态间关联信息的抽取,通过对以上两方面信息的融合,实现了基于图片和文本两种模态异构数据的融合以及基于该融合模型的图片事件相关性判定。
经实验可得,首先本文所提出的基于查询扩展的相关信息收集方法在新浪微博平台上具有可行性。一方面在新浪微博检索信息的局部反馈文档集选取中,基于微博热度的局部文档集选取方式优于应用较为广泛的伪相关反馈方式。另一方面在突发事件信息检索查询扩展中,人物和地点要素在查询语句中具有突出作用。其次在多模态信息融合中,同时考虑各模态内信息抽取和跨模态间关联信息抽取效果明显优于仅考虑模态内信息抽取和仅对跨模态间关联信息抽取。本文所提出的多模态融合模型F1值为0.90(准确率0.89,召回率0.92),较只考虑模态内部信息抽取和只考虑模态间关联信息的抽取F1值分别提升3%和8%,且图片事件相关性判定各模型在图片事件相关标签数据下的表现均优于或持平于其在图片事件不相关标签数据下的表现。
本文对突发事件相关图片的采集研究主要从突发事件信息获取以及图片事件相关性判定两方面入手。首先,面向新浪微博提出一种基于查询扩展的突发事件相关信息获取方法。该方法基于种子查询词不断扩展特定突发事件下的查询项,进而获取不同查询项下的相关信息,通过查询扩展的迭代进行,可以实现在新浪微博平台布尔检索及限定信息获取条件下对突发事件相关信息召回的提升,保证了候选图片的查全率。其次,本文将社交媒体突发事件下相关图片的识别问题转换为不同检索查询项下相关图片的识别问题,提出一种基于Attention注意力机制的融合图文多模态信息的图片事件相关性判定模型。该模型分别用BERT和ResNet网络结构提取文本特征和图片特征,同时考虑对各模态内特征信息的抽取和跨模态间关联信息的抽取,通过对以上两方面信息的融合,实现了基于图片和文本两种模态异构数据的融合以及基于该融合模型的图片事件相关性判定。
经实验可得,首先本文所提出的基于查询扩展的相关信息收集方法在新浪微博平台上具有可行性。一方面在新浪微博检索信息的局部反馈文档集选取中,基于微博热度的局部文档集选取方式优于应用较为广泛的伪相关反馈方式。另一方面在突发事件信息检索查询扩展中,人物和地点要素在查询语句中具有突出作用。其次在多模态信息融合中,同时考虑各模态内信息抽取和跨模态间关联信息抽取效果明显优于仅考虑模态内信息抽取和仅对跨模态间关联信息抽取。本文所提出的多模态融合模型F1值为0.90(准确率0.89,召回率0.92),较只考虑模态内部信息抽取和只考虑模态间关联信息的抽取F1值分别提升3%和8%,且图片事件相关性判定各模型在图片事件相关标签数据下的表现均优于或持平于其在图片事件不相关标签数据下的表现。