基于多模态数据的微博情感分类方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:bridge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是人们快速发表和获取观点的主要渠道之一,包含丰富的反映人们情感的多模态复杂数据对象,例如文字、图片等。基于这些数据的微博情感分类研究对于选举预测、社交推荐等多种应用场景都具有重要意义。如今,越来越多的微博已转变成了图片附加较短文字的形式。如何设计出能够针对图像附加较短文本的微博的效果较好的情感分类方法,是当前面临的一个重要问题。本文基于爬取和标记的微博多模态数据以及目前公开的数据集,针对图像附加短文本的微博的情感分类问题,进行了以下工作:第一,针对图像附加短文本的微博,本文提出了基于多核学习框架的微博情感分类方法。该方法将文本与图像特征映射到核空间,并基于同一条微博中文本与图像在情感上的一致性假设以及它们在特征上的冗余性和差异性,对文本与图像在特征层次上进行更有效的融合。该方法能够较好地处理短文本导致的特征稀疏问题,并通过寻找文本与图像在核空间中的共享子空间,从而提升短文本与图像整体的预测效果。本文在从新浪微博上爬取并标注的关于文本、图像的数据集以及网上公布的数据集上针对分类效果进行了实验对比。实验结果表明,本文提出的方法能够更好地融合短文本与图像,并且在大多数评价指标上都能够取得更好的结果。第二,评论是微博中的一种重要数据源,为了充分利用评论数据使得能够更好地对图像附加短文本的微博进行情感分类,本文提出了基于概率图模型的对微博内容(文本与图像)与微博评论进行融合的方法。具体地,本文使用 BFGM-LDA(Bayes Finite Gaussian-multinomial LDA)对微博文本和图像进行联合建模,利用LDA主题模型对微博评论建模。此外,本文引入隐变量来描述微博评论与微博内容在主题上的相关性,并以此将微博评论与微博内容相融合。由于可能使用同一个微博文本和图像的联合主题分布来生成对应的所有评论,因此该方法可以有效地解决微博文本较短的问题。本文在从新浪微博上爬取并标注的关于文本、图像和评论的数据集以及网上公布的数据集上针对分类效果进行了实验对比。实验结果表明,本文提出的方法能够更好地融合微博评论与微博内容,而且通过加入评论数据能够很好地提升图像附加短文本的微博的情感预测效果。第三,为了更好地验证本文提出的方法的有效性,本文通过基于Python下的开源数据爬取框架Scrapy以及内存数据库Redis编写的分布式新浪微博爬取程序DistributedWeiboSpider,从新浪微博上爬取了大量同时包含文本、图像和评论的微博数据,并对这些数据进行了合理的筛选和标注,最终形成了一个二分类数据集。其中,情感极性为Positive的微博有6000条,为Negative的有4008条,共10008条。通过在该数据集上进行实验,证明出本文提出的方法不仅针对多分类问题可以取得较好的效果,针对二分类问题同样如此。
其他文献
目的 探讨电针对血管性痴呆(VD)大鼠的学习记忆行为及乙酰胆碱酯酶(AChE)的影响。方法 将制成肾性高血压(RHR)后再造脑反复缺血拟VD的大鼠30只,随机分为模型组、电针组和药物
随着整体护理的全面推进,以人的健康为中心的整体护理观已成为现代护理发展的必然趋势.整体护理模式对护士的综合素质提出了更高、更严的要求.护士除了必备的良好的业务素质
针对大众教育背景下高校毕业生就业难的问题,指出高校就业指导缺乏实效性是大学生就业力缺失的主要原因,提出通过加强高校就业指导实效性及构建全程指导体系来有效提高大学生就
为探测掘进前方隐伏的含水构造,预防地质水害,解决煤巷综掘过程中日益突出的“探、掘”矛盾,论文提出和研究电场约束法煤巷综掘探测方法.该方法利用电场同性相斥的原理,使发
“九五”全国茶业有了很大发展,但也面临茶叶供过于求,效益趋降等问题。浙江是茶业大省,茶叶总产值、名茶产值、茶叶出口均列全国首位,其经验值得借鉴。“十五”浙江规划茶业为优
6月16日,西子湖畔的杭城风和日丽,花团锦簇,红旗飘扬。这是一个必将被浓墨重彩地载入浙江党的光辉史册的日子;这是一个承前启后、继往开来,开启浙江现代化建设新征程的日子。