论文部分内容阅读
当下,网络已经成为很多人工作生活中不可或缺的一部分,而拥有社交网络账号的用户也日益增多,一个人拥有多个网络账号(马甲)的现象普遍存在,并且马甲日渐成为一种危害网络安全与和谐的工具,不法分子利用马甲实施一些不当行为如发表不和谐言论、进行网络诈骗等。相关部门已开展针对马甲的网络监管,但由于网络上的信息具有多元多样多变的特点,给网络监管工作的实施造成了很大的困难。因此,研究通过社交网络的账号各类相关信息来识别马甲的方法是十分必需的,有很强的实用价值。 正确辨识网络账号的马甲关系,能够维护网络环境的安全与和谐,抑制网络中不法行为和虚假信息。基于文本挖掘的作者身份识别一直受到广泛关注,但对社交网络中作者关系鉴别的研究较少。本文提出了一种社交网络账号的马甲识别与账号映射方法,基于网络语言的风格和账号关系挖掘用户的特点,找到账号之间的马甲关系或者映射。本文的主要贡献包括以下几个方面: 1.提出了一种基于网络语言风格的马甲账号辨识方法 传统的识别文本作者的方法大部分是针对英文的,针对中文的也大都为长篇的传统文学作品,对于中文的网络文本的参考研究很少。相对于传统文学作品,网络文本的长度短,书写不规范,风格比较自由,多出现网络词汇,词法不严谨,针对如上的特点,提出一种基于网络语言风格的马甲账号辨识方法,在对用户的发言文本重组的基础上,提取用户发言文本中适合网络文本的特征,并对文本分类的得分结果聚合得到马甲关系的辨识结果。结合论坛数据对所提方法进行验证,结果表明该方法能够更准确的识别网络马甲,有较高的准确率。 2.提出了一种基于回复关系的马甲账号辨识方法 不同的网络拥有不同的可利用的账号相关数据信息,账号相关的信息隐藏了大量账号的社交习惯特性,现有的相关研究中利用论坛中的回复关系的工作较少,仅有基于社区发现算法辨识马甲账号团体的工作,但效果并不好。本文针对社区中特有的账号回复关系数据提出了一种基于回复关系的马甲账号辨识方法,基于网络语言的风格和账号关系,分别提取网络文本特征和账号之间的回复关系频次两组特征构成特征集合,同时基于账号组合构建训练样本向量空间,鉴别网络账号的马甲关系。结合论坛数据对所提方法进行了实验验证,准确率达到80%,结果表明该方法具有较高的马甲辨别准确率。 3.提出了一种基于互粉关系的跨社区账号映射方法 现有的账号映射相关研究中,利用社交网络(比如微博)特有账号互粉关系数据的较少,大部分利用该种数据的研究是挖掘社交网络账号的某些特性,如通过与账号有互粉关系的邻居账号的属性分析来补充该账号的属性,而实现账号映射的研究很多是通过比较账号属性的相似性来实现映射的。本文提出了一种利用账号互粉关系数据的跨社区账号映射方法,基于链路预测得到多种关联性特征,基于网络账号的社交特性提取账号互粉关系特征,同时结合账号发言的文本特征构建特征集合,有效的改善数据的稀疏性对账号映射结果不稳定的影响,实验的结果比同类的算法准确率有所提高。