基于图神经网络的信息传播模型和规模预测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liuhaiyi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动设备的蓬勃发展,理解和研究社交网络中的信息传播过程,在近些年得到了学界和业界的广泛关注。规模预测或流行度预测的目标是对信息进行初期观测,然后预测其在网络中传播的范围和规模。如何在复杂、快速变化、受各种内外部因素影响的社交网络中准确地预测信息级联的规模,成为该问题的主要挑战之一。大多数已有的信息级联规模预测模型依赖于人工设计的特征工程和随机过程,或者通过神经网络来对其进行端到端的学习。尽管上述模型取得了一定的成功,它们面临着许多亟待解决的重大挑战:(1)只考虑了局部结构特征,不能同时对全局和局部传播结构进行建模;(2)使用了简单的时间和结构特征建模方法,忽略了层级建模;(3)无法处理信息传播过程中的变化和不确定性;(4)无法利用无标签数据;(5)已有的数据增强方法不能直接应用到信息级联图上;(6)依赖于大量的有标签训练数据,泛化性能较低;(7)信息级联表示难以迁移到其他数据集和预测任务上。为了解决挑战(1-3),我们提出了基于图神经网络的Cas Flow模型,该模型对信息级联图进行非线性的层级分析并对传播过程中的变化和不确定性进行建模,它通过学习时间和结构上的级联隐藏表示来预测其规模。Cas Flow模型不依赖于特定的传播模式,它采用了变分自编码器和正则化流来同时学习节点和级联级别的潜在影响因素,其预测具有更好的准确性和鲁棒性。为了解决挑战(4-7),我们提出了基于图对比自监督学习的CCGL模型,它首先在有标签和无标签数据上通过不基于特定任务的对比自监督预训练来学习信息级联图的通用表示,然后在特定下游任务上使用有标签数据来进行模型微调,最后通过专门设计的教师学生网络来对模型进行知识蒸馏和迁移学习,有效地解决了“负面迁移”问题。CCGL模型通过模拟信息在网络中的传播过程,创新性地设计了图数据增强策略Aug SIM,缓解了模型在小数据集上训练所导致的过拟合现象,并且具备更好的泛化性能。CCGL模型可以从数据中学习到通用的知识,并将其迁移到其他类型的数据集和预测任务上以提升预测效果。它的“无监督预训练、模型微调、知识蒸馏”范式,对信息级联预测模型的设计提供了新的视角。本文在多个公开的大规模信息级联数据集上进行了大量的实验验证,与多个常见的基准模型相比,本文提出的两个模型均显著地降低了预测误差。
其他文献
随着时代的发展,越来越多的人选择走进博物馆,或是享受历史博物馆带来的文化熏陶,或是感受科技博物馆带来的知识魅力。所以博物馆如何更好得服务参观者,用有限的展示空间去尽可能满足游客的参观需求成为很有意义的研究方向。传统的研究方法可能大多局限于问卷调查和人为询问,使得参观者和博物馆工作人员都不太便捷。所以本文主要研究如何结合现有的人工智能技术来获取参观者对博物馆展品的评价,方便博物馆优化其展品的展陈。一
随着互联网的快速发展,新闻的载体逐渐由报纸向网络新闻转变,人们也更倾向于使用电脑和手机去接收新闻消息,互联网给人们带来便捷的同时,也为虚假新闻滋生提供了温床。自媒体的发展,使互联网新闻内容的呈现方式愈发多样,常常包含文本、图片和评论等各种信息,如何有效利用这些信息进行虚假新闻检测,对维持社会稳定、净化网络空间有重要作用。虚假新闻是可被证假且故意传播的新闻报道,传统的虚假新闻检测方法往往只关注单一模
随着大数据时代的到来,快速精准地从科技文献中识别和预测热点科研主题是帮助科研工作者了解特定科研领域研究现状的重要手段。从海量的学术文献中获取科研热点及科研主题的演化趋势,不仅可以帮助科研人员节约大量人力物力,同时还可以帮助诸多科技创新主体和科技政策制定者从宏观、全局的角度出发,全面深入的了解相关科研领域的现状和未来趋势。因此识别科技领域的热点主题和对主题热度的趋势预测具有重大的现实意义。基于以上背
社交媒体是互联网上基于用户关系的内容生产与交换平台。近几年社交媒体的迅速扩张使人们可以实时便利地了解世界上正在发生的事情的信息。基于社交媒体的事件检测是一种从海量社交媒体内容中挖掘出有价值信息的技术。基于社交媒体中检测出的事件,国家管理机构能够及时了解现实社会的重大突发事件并采取相应措施,个人能够及时了解社会上出现的热门话题并参与讨论。社交媒体事件检测方法中,在线事件检测由于其时效性较高,最受研究
复杂网络作为一个新兴的研究领域其研究方向在很大程度上依赖于大规模互相关联的结构化数据集。科学学(Science of Science,SciSci)是复杂网络研究在学术界的一个延申领域,其本身就是一个由学者、项目、文献和思想等学术主体自组织而形成的一个复杂网络体系。通过对该网络体系进行采样研究,以复杂网络作为理论基础,以大规模的学术主体作为关联对象,由网络的拓扑结构特性表征出科研领域本身的发展机理
新闻媒体是人们在互联网上获取信息的重要客体之一,分析新闻媒体网络中人物的影响力有助于社会科学研究者或经济政治研究者了解国际或社会型事件动态,对新闻中的信息进行传播动力分析。为了高效处理新闻中的复杂信息,常把问题转化为复杂网络相关问题进行解决。在现有的针对复杂网络节点影响力的研究中,仅利用了节点局部信息或全局信息,忽略了节点影响力贡献以及局部与全局信息的联系,从而导致影响力评估效果不佳。并且现有方法
随着互联网、大数据等技术的快速发展,数字化办公已经成为了现代企业最基本的资源配置。日常办公过程会产生大量电子文件信息,呈现出指数级增长趋势,所以需要开发档案管理系统来集中管理分散于不同地方的电子档案。中国移动公司作为通信行业的支柱企业,每个地市分公司能根据自身需要,构建统一的、标准的电子档案数据中心,可以集中、规范地管理所有的档案信息,确保数据的安全存储、高效查找与借阅,能够提高企业管理效率。本文
新媒体时代的到来,越来越多的媒体出现在公众的视角下,每天的新闻报道量也与日俱增。如何帮助读者快速了解新闻热点事件,是一个具有研究价值的课题。现在主流媒体基本采用文字、视频等非结构化的数据形式记叙新闻事件,同时新闻平台的研究热点主要是基于用户兴趣和当前热点的智能推荐。不论是搜索结果还是推荐界面,信息碎片化与非直观化问题突出,对于新闻核心信息的提炼与结构化处理不足,因此无法高效的将热点新闻的核心信息传
作为21世纪重要的信息采集技术之一,无线传感器网络(Wireless Sensor Network,WSN)技术为人类获取物理世界中各种目标信息提供了基础支撑。传统WSN受制于电池供电节点的续航能力,难以长期有效运行,限制了WSN的广泛应用。近年来,国内外研究学者相继提出了能量收集型无线传感器网络(Energy Harvesting Wirlesss Sensor Network,EHWSN)技术
新闻一直是人们获取信息的重要途径,特别是随着移动智能终端的普及,微博、微信公众号等诸多新兴媒体逐渐代替了传统的纸质媒体。这些新媒体为了引人注目,往往将标题起的非常夸张,但新闻内容可能和标题毫不相干。当下快节奏的生活方式决定了阅读往往是碎片化的,人们急需一种方法能在短时间内快速了解新闻的重点内容。自动文本摘要技术可以对新闻进行压缩和总结,提取重点内容,过滤冗余信息,提高人们阅读效率。本文主要结合强化