论文部分内容阅读
微博是人们快速发表和获取观点的主要渠道之一,包含丰富的反映人们情感的多模态复杂数据对象,例如文字、图片等。基于这些数据的微博情感分类研究对于选举预测、社交推荐等多种应用场景都具有重要意义。如今,越来越多的微博已转变成了图片附加较短文字的形式。如何设计出能够针对图像附加较短文本的微博的效果较好的情感分类方法,是当前面临的一个重要问题。本文基于爬取和标记的微博多模态数据以及目前公开的数据集,针对图像附加短文本的微博的情感分类问题,进行了以下工作:第一,针对图像附加短文本的微博,本文提出了基于多核学习框架的微博情感分类方法。该方法将文本与图像特征映射到核空间,并基于同一条微博中文本与图像在情感上的一致性假设以及它们在特征上的冗余性和差异性,对文本与图像在特征层次上进行更有效的融合。该方法能够较好地处理短文本导致的特征稀疏问题,并通过寻找文本与图像在核空间中的共享子空间,从而提升短文本与图像整体的预测效果。本文在从新浪微博上爬取并标注的关于文本、图像的数据集以及网上公布的数据集上针对分类效果进行了实验对比。实验结果表明,本文提出的方法能够更好地融合短文本与图像,并且在大多数评价指标上都能够取得更好的结果。第二,评论是微博中的一种重要数据源,为了充分利用评论数据使得能够更好地对图像附加短文本的微博进行情感分类,本文提出了基于概率图模型的对微博内容(文本与图像)与微博评论进行融合的方法。具体地,本文使用 BFGM-LDA(Bayes Finite Gaussian-multinomial LDA)对微博文本和图像进行联合建模,利用LDA主题模型对微博评论建模。此外,本文引入隐变量来描述微博评论与微博内容在主题上的相关性,并以此将微博评论与微博内容相融合。由于可能使用同一个微博文本和图像的联合主题分布来生成对应的所有评论,因此该方法可以有效地解决微博文本较短的问题。本文在从新浪微博上爬取并标注的关于文本、图像和评论的数据集以及网上公布的数据集上针对分类效果进行了实验对比。实验结果表明,本文提出的方法能够更好地融合微博评论与微博内容,而且通过加入评论数据能够很好地提升图像附加短文本的微博的情感预测效果。第三,为了更好地验证本文提出的方法的有效性,本文通过基于Python下的开源数据爬取框架Scrapy以及内存数据库Redis编写的分布式新浪微博爬取程序DistributedWeiboSpider,从新浪微博上爬取了大量同时包含文本、图像和评论的微博数据,并对这些数据进行了合理的筛选和标注,最终形成了一个二分类数据集。其中,情感极性为Positive的微博有6000条,为Negative的有4008条,共10008条。通过在该数据集上进行实验,证明出本文提出的方法不仅针对多分类问题可以取得较好的效果,针对二分类问题同样如此。