论文部分内容阅读
社交网络的用户倾向性指社交网络中用户对人物、事件或其它事物的看法和倾向,社交网络用户倾向分析通过采集社交网络中与对应人物、事件或其它事物的多种用户数据,采用自然语言处理、数据挖掘、智能分析、图像与视频分析等技术手段,判断用户对人物、事件或其它事物的看法和倾向。该方法虽然诞生时间不长,但已在商业营销、大选预测与导向、情报分析等多个领域获得了广泛的应用,受到全球学术界、工业界、商业领域、军事情报领域等多个领域广泛的关注与重视,成为目前很具潜力的前沿科学方向。现有社交网络用户倾向性分析以用户在社交网络中发表的文章(如推文、博文等)为主要依据,通过分析文章中的情感词,分析文章的情感特征,进而推断用户倾向。遗憾的是社交网络中的文章大都是短文,其中包含的情感词不够丰富,很多情况下单纯的情感词分析不能准确判断短文的情感特征,进而影响用户倾向推断的准确性。本文的研究发现:1)在特定的语境下,社交网络短文中的某些名词也代表用户的倾向;2)用户的某些特定行为(如点赞、转发、发表具有相似性的短文)同样代表用户的倾向;在特定条件下,准确有效的“倾向名词”分析与提取、用户行为特征分析将有助于用户倾向分析。基于上述发现,本文采用数据挖据、人工智能、复杂网络分析等手段开展研究,突破了传统用户的倾向性研究局限性,主要工作和创新如下:(1)提出了基于某些与事件(或人物)相关的特定名词的用户的倾向性判断方法,本文以2016年美国大选为例,通过分析这次大选期间在推特中用户发表的推文,发现有许多诸如名词之类的非情感词语也可以暗示在线用户的偏好。如在本次美国大选中,反对希拉里的推文中会大量出现了‘FBI’、‘Email’之类的单词。而反对特朗普的推文中则大量出现‘feminism’、‘racism’之类的单词。这些没有感情的词占了总推文数量的很大一部分。因此,本文的目的是建立一个在非情感词基础上情感分析方法。这一思想很好地解决了当前该问题的困境,提出了一种新的解决上述不准确问题的方法。(2)提出了基于复杂网络社团划分的用户的倾向性判断方法。根据本文对用户行为进行的分析表明,用户往往喜欢转发或点赞与他们有类似的想法的提问。同时,具有相似观点的推文往往具有高度相似性。因此,以转发、点赞或推文相似性为纽带关系构建复杂网络,通过社团发现的方法将选举结果划分为几个社区来预测选举结果。与传统的社区检测问题相比,根据情感分析,并将社区看作网络中节点的一部分。本文认为该方法可以帮助判断用户的表现。(3)提出了基于终身机器学习的用户的倾向性判断方法。现有的基于机器学习的情感分析方法大多采用支持向量机分类器,通过监督学习的方式来判断用户的情感。对于监督学习而言,大量的训练样例通常是手工标注得到的,这样费时又费力。但是现实世界中存在太多的学习任务,为了学习一个机器学习模型,对每个任务都手工标注大量的训练数据是不可能的。更糟的是,事情总是处在不断变化中,因而需要不停地标注训练样例,这显然是无法完成的任务。而终身机器学习则是通过模型学习并整合,通过不断的数据累积,创造一个计算机系统可以持续不断地学习阅读和理解的模型,并以此模型判断出推文或用户文的情感倾向。这种方法可以有效解决传统机器学习中的问题。