论文部分内容阅读
在真实世界的社交网络中,例如Facebook,Instagram,Twitter等,用户会自发地为自己产生的内容(例如文本推特,用户的个人照片)添加上一些Hashtag,这种为自己产生的内容添加Hashtag的行为是一种社交行为,具有任意和自发的性质。Hashtag在社交网络中很常见,它的用处也很多,例如用于分类任务,话题模型,情感分析,信息检索等。在研究上,大多数的研究者集中在对文本推特推荐Hashtag,在对社交网络中图片的Hashtag推荐的研究比较少。但是,像Instagram,Flickr等等这样的网络,用户倾向于分享更多的图片,社交网络中存在着大量的图片内容,图片里面包含着丰富的语义信息,这些信息也可以被应用到推荐任务上。自动给图片推荐Hashtag是一项非常有挑战性的任务,因为Hashtag和用户的偏好相关,有些Hashtag甚至跟图片的内容不怎么相关,因此,Hashtag和图片的关系可以看成是一种弱相关关系,多数Hashtag推荐相关的工作主要集中在社交网络中文本内容的Hashtag推荐,这里把Hashtag推荐任务拓展到图片,并且对Hashtag之间这种相关的关系进行建模,提出了一个新的算法,叫做基于注意力机制的图片Hashtag推荐算法(Attention-based Neural Image Hashtagging Network,A-NIH),ANIH模型分为编码器和解码器两部分,编码器通过序列注意力来选取重要的特征,过滤掉图片中的噪声,从而获得了更好的特征表示;解码器通过循环神经网络利用贪心搜索的方式来生成推荐序列,能够克服序列模型的重复标签的生成,又能够对标签关系建模。这样模型就把推荐问题看作是一个序列生成的问题,并且在真实世界数据集上做了一系列的实验,取得了不错的效果。其中,在HARRISON数据集上,跟VGG算法相比,基于Resnet 50的A-NIH模型在Precision@1上提升了2.34%,在Recall@5上提升了3.56%,在Accuracy@5上提升了8.4%。为了验证模型在大数据集的情况下的有效性,检测模型在相似任务上的迁移能力,模型在NUS-WIDE数据集上做了实验,其中基于Inception V3的A-NIH模型在Precision@1上提升了1.73%,在Recall@5上提升了1.92%,在Accuracy@5上提升了3.64%。社交网络里面的短文本也非常的多,大部分情况下,文本含有的信息对Hashtag推荐也非常的有帮助,因此,在考虑到了图片和文本的及其结合的情况下,提出了针对该场景的一个新的深度学习算法框架结构,叫做基于多模态注意力机制的Hashtag推荐算法(MultiModal Attention-based Neural Network Model,MMAN)模型,MMAN模型分为编码器解码器两部分,编码器在A-NIH的图片编码器的基础上,融入了文本特征编码器,利用双向循环神经网络来最文本序列进行建模,既能前向上下文信息,又能考虑到后向上文的信息,利用注意力机制选取重要的特征;解码器利用编码器的特征对Hashtag进行解码,在A-NIH的解码器的基础上融入了文本的特征进行解码,考虑到了文本与Hashtag之间的关系。最后,MMAN在自己制作的Custom Instagram数据集的实验显示,和Co-Attention算法相比,MMAN(Resnet50)模型在Precision@1上提升了13.15%,在Recall@5上提升了8.2%,在Accuracy@5上提升了27.99%,最终取得了不错的提升效果。