论文部分内容阅读
情感分析是舆情分析、热点挖掘、产品推荐等应用的重要基础。互联网,特别是社交网络,提供了丰富的情感信息。Twitter、Facebook及新浪微博正在快速发展,用户在这些社交网络的发言与行为深刻反映了他们的情感信息。然而,微博的文字短小,用户自身的行为也存在随意性等特点,使得传统的基于文本分析的情感分析方法难以适用。本文基于社会学的同质分析等理论,充分利用社交网络的网络特性,深入研究了基于用户关系特性的社交网络情感分析模型与方法。首先,针对用户博文结构化特征差、信息不足的缺陷,提出基于观点一致性的情感分析方法,实现用户级的情感分析。传统方法根据用户的博文内容判断用户的态度与情感。然而,微博用户之间的关系,如关注、转发等,本身又蕴含了丰富的信息。因此,新方法基于用户标签和共同好友,衡量用户之间的情感相似性,并根据影响力决定用户间行为数据的影响权重,最终,通过综合大量好友的信息,判断用户的真正情感。其次,针对许多用户社会关系信息缺失的现状,研究用户间隐含关系的挖掘机制,然后结合用户的显式关系,提出融合全面用户关系信息的情感分析方法,以支持博文级与用户级的情感分析。许多微博用户的显式关系仅仅反映了他们生活中的人际关系,不能反映他们对许多事件的真实情感。为此,运用社会学同质性理论,提出用户博文数据的相似性度量指标,结合博文之间的相似性、博文之间的回复关系、用户博文一致性等信息,推断用户间的隐含关系。在此基础上,进一步研究了融合全面用户关系信息的情感分析方法。基于来自新浪微博的数据集,实现并验证了以上工作的有效性。该数据集包含了新浪微博用户的社交关系数据、用户属性、用户行为数据等信息。实验结果表明,与现有方法相比,观点一致性方法的各项评测指标均更优,用户级的预测精度提高了16%。同时,在少量标注集的半监督环境下,融合用户关系信息的方法在博文级与用户级的预测精度上,至少提升了2%。总之,新方法通过分析用户的社会关系并挖掘隐含的用户关联,再与用户的显式关系相结合,获得了更准确的情感分析结果。