基于网络化数据表示学习的重叠社区发现研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wintry5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代很多数据都是以网络形式进行组织的,把这种数据称为“网络化数据”,比如社交网络、引用网络、蛋白质网络和交通网络等。由于网络化数据中普遍展示出具有局部聚集性的社区特征,因此社区发现是网络化数据分析的重要任务。社区发现对于网络结构的中观粒度分析有重要意义,可以支持网络上的多种任务,比如,网络压缩、信息传播以及影响最大化等。社区发现任务本质上是通过建模网络连边关系学习节点关于社区的表示。传统的基于网络划分的社区发现方法将每个节点划分到一个社区中,相当于学习了节点的one-hot表示。然而,真实网络中,节点是可以同时属于多个社区的,即存在社区重叠的现象。one-hot的表示无法解决这种问题,因此,需要学习节点的分布式表示,来精确指示节点的社区分布。这是社区发现面临的第一个挑战。由于支持社区重叠的分布式节点表示学习方法在处理大规模网络时面临优化过程复杂的问题,因此无法应用于大规模网络。这是社区发现面临的第二个挑战。基于以上两点挑战,本文进行了深入研究,主要贡献包括:  基于编解码模型的重叠社区发现研究:本研究针对网络化数据表示学习得到的节点表示在社区指示能力和数据恢复能力方面存在的矛盾。重叠社区发现方法需要节点表示可以直接指示节点的社区分布,节点表示的指示能力需要对节点表示进行一系列约束,这些约束条件影响了节点表示还原原始数据的能力,导致重叠社区发现方法得到的节点表示功能单一。传统的社区发现工作,比如基于隐因子模型的社区发现工作,无法解决这一矛盾。因此,本研究主要解决如何在数据恢复过程中对节点表示进行约束,从而增强节点表示的社区指示能力。本文利用节点表示同时对原始数据进行编码和解码操作,统一优化编码过程和解码过程,通过约束编解码过程参数的对称性可以学习到可以指示重叠社区的节点表示,并且得到的节点表示在多种类型网络的多个任务上取得超过基准方法的效果。  重叠社区发现方法的初始化加速研究:本研究针对重叠社区发现方法无法应用于大规模网络的问题,解决由重叠社区发现方法目标函数的非凸性带来的优化困难。本文针对重叠社区发现中的一个经典方法—泊松模型进行加速。泊松模型是一种表现良好的社区发现模型,通过建模节点之间的连边数,学到的节点表示可以直接指示网络社区结构。但是由于目标函数的非凸性,会经常优化到局部最优解。传统的应对非凸目标函数优化的方法是多次随机初始化并运行算法从中取最好的结果,这样做效率低且结果没有保障。本部分研究工作中提出利用一个与非凸目标函数近似的凸目标函数的优化结果作为非凸目标函数的迭代初值。由于凸目标函数的优化结果接近全局最优且得到的速度较快,因此该结果可以作为非凸目标函数优化的参数初始化条件,以保证非凸目标函数优化的速度和精度。本文结合了一个快速的网络划分方法和泊松模型的方法,将此模型应用于大规模网络,最终重叠社区发现算法的精确度提高了5%,速度提升了100倍。  重叠社区发现方法的优化过程加速研究:本研究针对重叠社区发现方法无法应用于大规模网络的问题,解决由迭代过程的复杂性带来的优化困难。第一个工作是对迭代优化开始之前的模型加速,本研究从迭代优化过程中对模型进行加速。在网络化数据场景中,传统的节点表示学习模型在优化过程中每次迭代需要更新所有节点表示的参数,因此优化过程复杂度较高,导致大部分算法无法处理大规模网络。由于在社区发现任务中,大部分节点表示在经过少数几轮迭代之后,就可以收敛到可以指示社区结构的能力,因此本文在优化过程中停止继续更新已经收敛的节点表示,避免大量的重复计算来加速算法速度。进一步,由于节点表示的稀疏性,所以本文存储并仅优化那些非零维度进一步加快算法速度。两种加速策略的配合使得本文提出的加速方法可以快速处理大规模真实网络。  综上所述,为了解决基于网络化数据表示学习的社区发现任务面临的重要挑战,本文从三个层面分别解决了社区发现方法的可扩展性以及社区发现方法得到的节点表示的普适性方面面临的挑战。通过编解码模型能够学习到可以指示社区结构并在多种类型网络的多种任务上取得良好效果的节点表示,即本文同时解决了节点表示由于社区指示能力所需的节点表示约束条件和节点表示对原始数据还原能力之间的矛盾。通过快速初值优化模型和快速迭代优化模型分别从模型迭代前和模型迭代过程中对基于网络化数据表示学习的社区发现任务进行加速,主要解决了社区发现方法的可扩展性问题,使得我们的节点表示学习方法可以应用于大规模真实网络指示社区结构。
其他文献
现代社会中,随着信息技术和计算机技术的快速发展、业务范围的迅猛扩大、数据量的不断增加,数据库开始渐渐从集中式向分布式转变。分布式数据库能够更好地实现计算机硬件、软件
需求工程无疑是当前软件工程中的关键问题.其难点主要在于两个方面.第一是要尽可能提高领域用户的参与程度,使用户所提供的需求尽可能完整和精确.该文所采用的基于领域本体的
椭圆曲线密码学(Elliptic Curve Cryptography)由Neal Koblitz和Victor Miller于1985分别独立提出.椭圆曲线密码体制利用了基于有限域上的椭圆曲线上的点所形成的群架构于ElG
随着计算机和通信技术的迅猛发展,计算机应用日趋深入,同时凸现出计算机安全问题的重要性,其中尤为复杂的是网络信息安全问题,它涉及个人隐私,商业利益乃至国家安全.现有的各
多边形模型是图形学中最重要的模型表示形式。它的简化和多分辨率表示有重要的应用价值。本文针对这一类模型的简化进行了如下研究工作: 第二章就多边形模型简化算法,给出一
安全访问控制技术一直是实现计算机安全控制的一个重要途径,由此产生众多安全访问控制模型,而基于角色的访问控制模型是目前研究热点.对于用户访问应用系统的过程中,我们大致
当一个软件开发完成后,能否实际地投入运行并准确无误地完成任务,软件的质量是关键.针对如何确保软件开发质量问题,虽然已经提出了许多技术和方法,但迄今为止,软件的质量主要
近年来,Web Service成为一大技术热点,许多研究机构、组织和公司都纷纷投入到Web Service的研究和应用当中来.Web Service提供了一个在Internet上访问软件服务的简单的方法,
本文讨论了朝鲜文字识别系统的性能评价指标,分析了这些指标对识别系统性能判别的不足,对识别性能判别提出了一种新的方法。该方法将样本的复杂度作为一个性能评价的有效因素,分
当今,电子商务正面临着前所未有的挑战。“网络世界”使得它们的系统和数据面临安全威胁,而且这种安全威胁在日益增长。网络安全专家们被迫去保护自己的数据和程序不被网络黑客