微博应用中“转世账号”的研判技术与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:kungfuchicken
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中文微博平台的快速发展,微博已经融入并且开始影响人们的日常生活,微博上的很多观点言论正在潜移默化地影响着人们的价值判断。而人是言论传播的主体,微博平台的开放性使一个人在微博上可以对应多个虚拟身份,转世账号就是一类在网络舆论监测过程中出现的一个用户对应多个账号的情况,本文主要研究转世账号的研判问题。转世账户现象是在不同时间上同一微博平台上存在的两个或者多个账号对应同一个用户的现象。本文在调研了微博用户研究所用信息来源的基础上,筛选出账户名、博文时间和内容三个具有高可信性的信息来源,作为研究的基础数据,接着提出了一种基于时序和相似性的转世账户研判模型,论文主要包括以下四个研究贡献:(1)由于受记忆、知识和时间及习惯等原因限制,同一用户命名自己的不同账户时倾向于选择相似账户名。本文通过研究转世账户不同账户名的命名规则及账户名间的高相似性,利用相似性设计并实现了待查账户候选账户集产生算法。该算法将账户名中包含待查账户名任一中文字符的账户选入候选集,在最大程度上保留了相似账号。(2)针对转世账户的特殊性,提出了一种博文时序树算法。由于转世账户的前世账户与现世账户的博文一般在时间维度上有一个严格的先后顺序,即现世账户的博文不早于前世账户的博文发表时间,并且其第一条博文的时间不会滞后于前世账户发表最后一条博文太长时间。借助这种时序关系对博文进行处理,最终形成一棵以待查账户为根,疑似前世账户为节点的时序树,完成候选账户集的时序筛选验证。(3)研究文本相似度计算方法,改进了余弦相似度计算方法。本文针对两个应用改进了余弦相似度算法。首先对于账户名这种超短文本,其相似性不能仅依靠判断所使用的字相同就认为其相似,故本文针对余弦相似度算法不能区别文本结构上的不同,通过加权最少编辑距离算法进行改进,取得了更好的研判效果;另外是对博文相似度,本文认为对于命名实体相同的微博文本,其谈论的话题是相似的,因而本文将文本向量空间分为命名实体空间和其他特征项空间,并且加大了命名实体在特征向量里的权重,该算法可以推广至基于话题的相似性计算。(4)基于以上算法,提出了一种基于时序和相似性的转世账户研判模型,并在新浪数据上进行了有效性验证。模型主要分为两大模块:候选账户集产生模块(Identity Search)和筛选验证模块(Identity Matching)。前者使用候选账户集产生算法生成待查账户的候选账户集,尽可能避免漏掉可能的前世账号;后者进行时序和相似性的筛选验证,尽可能甄别删除不是前世账户的账户。本文在对模型设计的基础上,进行了编程实现,最后基于新浪微博数据进行了模型的性能验证,取得了良好效果。由于本文研究所选信息来源不涉及不易获取信息和隐私信息,因而模型具有很好的平台可移植性。最后,本文在对数据结果分析的基础上,对模型的改进提出了比较具体可行的方案,对进一步的深入研究做了展望。
其他文献
随着移动数据业务的出现和飞速发展,移动互联网技术已显现出巨大的商业价值和应用潜力。但是面对海量的移动数据业务访问资源,如何从中快速、准确地发现知识,已经成为当今研究的
本文用于研究针对老挝国立大学学生教育的数据挖掘理论与技术。本文的目的是协助指导老师通过利用学生的基本信息,例如年龄、性别、学术记录以及平均成绩,进行决策和学习建议,这
人脸识别技术是计算机模式识别领域非常活跃的研究课题,在法律、商业、安全系统等领域有着广泛的应用。由于人脸图像的特殊性,人脸识别问题也是模式识别领域的一个相当难的问
随着计算机技术发展和应用的不断深入,软件规模及复杂性的不断提高,对软件的各方面的要求的不断提高,如何不断提高软件产品的质量和软件开发的效率成为当前迫切需要解决的问
[摘 要] 由于中英二语分属不同语系,差异很大,母语为中文的大学生学习英语势必遇到语言迁移带来的诸多学习困难,因此全方位地了解语言迁移现象,把握语言迁移规律,有利于加深学生对于第二语言的接受和理解,有助于其有效利用第二语言。  [关键词] 语言迁移;大学生;多维视角  [中图分类号] G648 [文献标志码] A [文章编号] 1008-2549(2018) 05-0082-02  语言迁移是第二
[摘 要] 信息化的建设和应用,推动了当今我国教育事业的迅猛发展。信息化改变了教师、学生的思维和生活方式,促进了教育教学模式的改革,提高了教学质量和效率。信息化应用带来的便利和效益,已经得到整个社会高等教育领域的普遍认可。本文首先介绍了新建本科院校教育信息化建设的现状,进而对其存在的问题进行分析探讨。此外,还对新建本科院校的教育信息化如何为翻译教学服务,提出了一些建议和方案。  [关键词] 教育信
隐马尔可夫模型对动态时间序列有很强的建模能力,在参数、结构和训练方法的选择上有很大的灵活性,成为目前主流的语音识别方法。然而,隐马尔可夫模型受极大似然准则的限制,类
传感器技术、微机电系统、网络和无线通信等技术的进步,推动了无线传感器网络的产生和发展。随机分布的大量的传感器节点,以无线自组织的方式构成网络,通过节点中内置的各种类型