论文部分内容阅读
随着中文微博平台的快速发展,微博已经融入并且开始影响人们的日常生活,微博上的很多观点言论正在潜移默化地影响着人们的价值判断。而人是言论传播的主体,微博平台的开放性使一个人在微博上可以对应多个虚拟身份,转世账号就是一类在网络舆论监测过程中出现的一个用户对应多个账号的情况,本文主要研究转世账号的研判问题。转世账户现象是在不同时间上同一微博平台上存在的两个或者多个账号对应同一个用户的现象。本文在调研了微博用户研究所用信息来源的基础上,筛选出账户名、博文时间和内容三个具有高可信性的信息来源,作为研究的基础数据,接着提出了一种基于时序和相似性的转世账户研判模型,论文主要包括以下四个研究贡献:(1)由于受记忆、知识和时间及习惯等原因限制,同一用户命名自己的不同账户时倾向于选择相似账户名。本文通过研究转世账户不同账户名的命名规则及账户名间的高相似性,利用相似性设计并实现了待查账户候选账户集产生算法。该算法将账户名中包含待查账户名任一中文字符的账户选入候选集,在最大程度上保留了相似账号。(2)针对转世账户的特殊性,提出了一种博文时序树算法。由于转世账户的前世账户与现世账户的博文一般在时间维度上有一个严格的先后顺序,即现世账户的博文不早于前世账户的博文发表时间,并且其第一条博文的时间不会滞后于前世账户发表最后一条博文太长时间。借助这种时序关系对博文进行处理,最终形成一棵以待查账户为根,疑似前世账户为节点的时序树,完成候选账户集的时序筛选验证。(3)研究文本相似度计算方法,改进了余弦相似度计算方法。本文针对两个应用改进了余弦相似度算法。首先对于账户名这种超短文本,其相似性不能仅依靠判断所使用的字相同就认为其相似,故本文针对余弦相似度算法不能区别文本结构上的不同,通过加权最少编辑距离算法进行改进,取得了更好的研判效果;另外是对博文相似度,本文认为对于命名实体相同的微博文本,其谈论的话题是相似的,因而本文将文本向量空间分为命名实体空间和其他特征项空间,并且加大了命名实体在特征向量里的权重,该算法可以推广至基于话题的相似性计算。(4)基于以上算法,提出了一种基于时序和相似性的转世账户研判模型,并在新浪数据上进行了有效性验证。模型主要分为两大模块:候选账户集产生模块(Identity Search)和筛选验证模块(Identity Matching)。前者使用候选账户集产生算法生成待查账户的候选账户集,尽可能避免漏掉可能的前世账号;后者进行时序和相似性的筛选验证,尽可能甄别删除不是前世账户的账户。本文在对模型设计的基础上,进行了编程实现,最后基于新浪微博数据进行了模型的性能验证,取得了良好效果。由于本文研究所选信息来源不涉及不易获取信息和隐私信息,因而模型具有很好的平台可移植性。最后,本文在对数据结果分析的基础上,对模型的改进提出了比较具体可行的方案,对进一步的深入研究做了展望。