论文部分内容阅读
随着IT技术的飞速发展,特别是Twitter和新浪微博等社交网络平台的兴起和蓬勃发展,微博文本情感分析(Microblog Sentiment Analysis,MSA)已成为一项热门的研究课题。然而,由于微博文本普遍篇幅短小,信息量少、数据噪声大等特点,给传统思维下的针对纯内容的文本情感分析方法带来极大的挑战。事实上,在线社交网络节点间存在大量链接结构,用户的情感和观点常常不自觉地受到其他用户节点的影响。近期研究表明,微博文本情感分析不再局限于传统的基于纯内容的分析,考虑融合有效的社交信息将有助于MSA取得更优效果。而web2.0鼎盛时期的到来,使得社交用户之间交互更加频繁、社交关系更加复杂紧密、情感交流和情绪影响更为普遍。同时,根据同质性和影响力等社会学理论可知,存在相似关系和影响关系的社交用户往往会对于某些事物或事实有相似的观点。因此,本文提出基于用户相似性(User Similarity)和用户影响力(User Influence)社交关系的微博文本情感分类模型(MSA-USUI模型)。根据社交网路节点相似性度量方法以及微博用户信息特性,提出分别从用户节点的网络结构、用户基本信息和用户兴趣三个维度来综合度量微博用户相似性关系;根据在线社交网络节点间影响力分析和度量方法以及微博用户行为特性,提出分别从好友关系和用户间互动行为两个角度来综合度量微博用户间影响力关系。在基于微博文本内容建模基础上,本文利用基于相似性关系和影响关系的用户社交关系构建微博文本间情感关系,并用“博文-博文”间情感关系进一步优化训练微博文本情感分类模型;对可能出现的过拟合问题进行处理,最终给出模型求解算法。最后,本研究通过python爬虫获取两个新浪微博数据集对模型进行实验验证,实验结果表明:MSA-USUI模型具有比支持向量机和目前先进的监督模型SANT有更好的微博情感分类效果。此外,实验结果还证明融合用户间影响社交关系信息带来的微博情感分类正确率和F1值提高大于融合用户间相似性关系信息,但当同时合理融合用户相似性关系信息和用户影响关系信息时,MSA-USUI模型的分类效果达到最优。