论文部分内容阅读
微博,是微博客(MicroBlog)的简称,它是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。根据用户使用微博的行为记录,可以分析出用户的行为习惯、个人偏好、意识形态、身份、职业、是否有危害性等多方面的个性化信息。随着微博用户的数量呈指数级速度的增长,以及微博对社会实体以及意识形态的影响愈发重要,故微博用户的行为的分析对舆情监测显得尤为必要,因此对微博用户行为分析对网络安全、舆情控制、舆情引导等方面都有着深远的意义。微博用户行为分析,就是对微博用户的行为进行分析,通过分析出来的结果,可以快速了解一个用户的基本特点和潜在规律。本文采取了基本的统计分析与数据挖掘相结合的分析方法,实现了对微博用户的立体式挖掘,本文实现主要的内容如下:1、对单一用户进行基本行为分析,即根据用户发帖、转帖、评论数量,粉丝的变化数量,用户的发帖时间等用户基本行为。2、对单一用户进行兴趣分类,即根据用户所发表的相关博文,或者转发的相关博文,使用数据挖掘中的分类算法,将该用户在各个预定义的类中各打一个分类值分数,看其更倾向于属于哪一个或者几个类。3、特殊类用户的甄别,即根据用户所发表的博文,或者转发的相关博文,使用统计分析的方法,将该用户的博文中所命中的预定义的特殊类的情况统计分析出来,看其是否构成特殊类用户。4、群体用户行为分析,即对共同拥有某一个爱好的群体,进行分析,具体分析方法和前三点相同。5、用户职业预测,即通过将用户的分类值分数(唯一六维向量)与一个已知职业用户的分类值分数做比较,来判定是否是拥有同样职业的用户。6、博主数据库,本文维护和建立了一个博主数据库,保存已分析好的博主信息,以供查询方便。7、指定博主微博维护,即代理制定博主维护其微博,具体是删除针对自己的特定评论,建立黑名单,以及完成取证工作。在银河博思舆情分析系统中,实现了微博用户行为分析模块,通过实验验证了相关研究工作的有效性。