互联网用户画像及虚假信息相关特征挖掘方法

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:z444567059
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息由于传播速度快、成本低廉和易于访问等特性,为用户带来便捷的信息获取渠道的同时也为虚假信息的广泛传播提供了方便快速渠道,互联网虚假信息往往会误导用户、扭曲真相、引导和传播不良情绪甚至激起强烈的舆论反应,对个人和社会产生极为不利的影响。相比起传统媒体上的虚假信息,互联网社交网络中的虚假信息形成了独特的展现形式及传播效应,更加具有群体性、隐蔽性及传播准确性,破坏力及影响力远超从前,故针对互联网虚假信息的检测和防范具有重要的研究和实际应用意义。传统针对互联网虚假信息检测的研究多为信息内容真假的识别检测,无法有效从互联网用户这个信息产生及传播的关键节点对虚假信息进行监控分析。本研究旨在通过用户画像作为互联网用户描述手段,基于互联网信息大数据提取微博用户画像特征,通过用户显式特征及言论数据,挖掘用户未公开或未进行记录的隐式特征,利用隐式特征信息完善补充用户画像,最终以互联网用户画像为基础,研究探讨与互联网虚假信息相关的用户特征及检测方法。本文的主要工作如下:(1)本文提出基于微博用户基本信息数据集,完成基础微博用户画像构建及微博用户显式特征提取,基于显式特征使用K-Means聚类算法对微博用户进行划分,挖掘其用户类别隐式特征,最终将用户划分为广告型、普通型、明星型及活跃型用户,验证了基于用户显示特征对用户未公开隐式特征进行挖掘的可行性。(2)本文提出使用微博用户言论信息对微博用户的情感倾向及人格特征两种隐式特征进行挖掘的方法。文中基于微博情感分类标记数据进行了Fast Text及BERT情感分类模型训练,完成模型精度及效率对比,挖掘并获取微博用户情感倾向隐式特征;使用Pear模型对用户人格特征进行挖掘,获取微博用户大五人格得分作为用户人格隐式特征。最终使用两种用户隐式特征对微博用户画像进行完善。实现了基于微博用户言论的用户隐式特征挖掘,验证了所提出方法的有效性。(3)本文完成一组微博虚假信息用户观点数据标注,并基于标注数据提出可通过相关性分析及统计分析挖掘完善后的微博用户画像与用户所传播虚假信息观点之间关联性,最终得出负面情感用户及开放性人格用户更易相信虚假信息的结论。(4)本文基于研究过程中的实验数据及程序,采用三层架构,设计封装完成一套互联网用户特征挖掘分析框架,其输出结果数据表格形式展示。数据挖掘分析框架以Python库形式提供,可移植于不同的系统及平台,支持用户特征相关的持续性研究,能够有效提高研究效率。
其他文献
在流程自动化和影视剧数字化的时代背景下,视频网站在沟通影视剧片商和观众之间扮演着越来越重要的地位。对于视频平台和片商而言,传统的线下合作的方式已不再适用,平台化、数字化、自动化的新型合作方式必定是行业发展的趋势。基于此种需求,公司通过建设一款影视剧采购平台来给视频网站和片商之间提供更加快捷高效的合作方式,以减少用户和平台间的交流沟通成本,促进业务发展。项目严格遵守软件开发流程,整个项目开发经过需求
作为电子回旋脉塞器件中发展最为成熟的一种管型,回旋管在工业、军事和科学研究等多方面有着重要的应用价值。例如,频率高于24GHz的回旋管用于材料加工,W波段的回旋管可以应用在主动拒止系统中,170GHz的回旋管用于热核聚变领域。鉴于不同输出功率的回旋管有不同的应用场景,文中设计了两个工作在94GHz,输出功率分别为10kW级和150kW级的高频互作用腔。为了降低对工作磁场的要求,互作用腔采用二次谐波
在精密的微操作过程中,操作者的人眼和人手需要极高的定位精度和操作精度,而微操作工具末端和微操作目标往往非常微小,使得人眼和人手在不断观察与操作的反复作业中容易疲劳,
ZSM-5分子筛在催化裂化、烷基化、芳构化等石油加工过程中起着重要的作用。但其较小的孔径限制了活性中心对大分子的可接近性,进而限制了其催化作用的发挥,因此在微孔中引入
数学公式识别是纸质文献进行电子化转录领域的一项关键技术,同时随着近年来触摸设备的普及,在线手写体数学公式识别技术也变得越发重要,该技术的发展可以促进一种新型的人机交互方式,尤其在数字化教学、数学文档撰写等领域将带来极大的便利。数学公式识别问题属于光学字符识别的一种,但又有其自身的特殊性。数学公式识别问题的特殊性体现在:公式中存在大量书写歧义、字符歧义、分割歧义以及结构歧义等难点。这些难点使得该问题
在城市交通发展过程中,由于长期只侧重于动态交通--修路,而忽视了静态交通--建停车场(库),使得停车位供不应求。因此,解决停车难的问题已经迫在眉睫。为了解决这一问题,推广立体车库的使用率成为了重中之重,而智能搬运器是其技术核心,故本文设计了一款新型的智能梳齿搬运机器人,并且对其关键技术进行了研究。希望能通过使用智能梳齿搬运机器人,提高整体立体车库的运行效率,使其更可靠稳定、速度更快、空间利用率更高
低矿化度水驱技术是1996年BP研究中心和Wyoming大学联合研究开发的一项水驱新技术,它是指向地层注入矿化度相对地层水低的盐水来提高采收率,相对传统方法具有经济、环保的特
聚丙交酯(PLA)是一种具有良好生物相容性和可再生利用的聚合物,优异的特性使得其在工业中被广泛运用,如药物缓释材料,人造组织材料。目前合成该聚合物的一种较为有效的方法就是
为了满足通讯系统日益增长的性能指标,亟需研发更加强大的微波功率器件。用GaN材料制作的高电子迁移率晶体管(HEMT),因其高频率、高功率、高效率等特性,被广泛应用于微波电路之中。而半导体器件模型向下承接器件的工艺生产,可提高工艺水平,向上承接器件的电路设计,可缩短设计周期,是整个半导体产业链中不可或缺的关键部分,所以针对GaN HEMT器件建立准确的模型是非常有意义的。目前,针对GaN HEMT的
分块算子矩阵是线性算子理论的主要研究内容之一,它在泛函分析,偏微分方程的耦合系统,弹性力学,流体力学等数学物理领域中有重要的应用.分块算子矩阵的谱理论,如谱结构和谱分