【摘 要】
:
随着网络数据规模的日益增大,各种类型的网络变得越来越复杂,传统网络中的社区发现方法面临着巨大的挑战,往往难以解决高维网络空间的社区划分问题。为了能够更准确的发现大规模网络中的社区结构,本文将机器学习中相关算法融合到社区发现中,提出了一种基于网络结构和节点内容属性的重叠社区发现方法。在基于网络结构的社区发现方法过程中,本文首先选取DeepWalk网络表示学习方法将网络图中节点表示成低维向量,每个节点
论文部分内容阅读
随着网络数据规模的日益增大,各种类型的网络变得越来越复杂,传统网络中的社区发现方法面临着巨大的挑战,往往难以解决高维网络空间的社区划分问题。为了能够更准确的发现大规模网络中的社区结构,本文将机器学习中相关算法融合到社区发现中,提出了一种基于网络结构和节点内容属性的重叠社区发现方法。在基于网络结构的社区发现方法过程中,本文首先选取DeepWalk网络表示学习方法将网络图中节点表示成低维向量,每个节点的低维向量表示从某种程度上反应了该节点在网络中的连接情况。此时,我们便可以将每个节点看作是一个样本,向量的每个维度都可以看做一个特征,将样本数据输入到变分高斯混合聚类模型中训练。从而得到网络中每个节点的聚类结果,此处的类相当于网络中的社区。此外,该过程中得到的聚类个数可进一步作为基于内容建模的输入。在基于节点内容属性进行社区发现过程中,本文使用主题模型对节点内容进行多维属性建模,从而得到节点的多重社区归属分布问题。算法进一步考虑到网络中节点内容短小在主题建模过程中导致的数据稀疏问题,在LDA主题模型中引入Spike and Slab prior方法辅助实现变量选择和参数估计,有效地解决节点上社区分布的稀疏性和平滑性问题。最后本文通过实验将上述两种方法应用到真实网络数据集中,我们以DBLP文献数据集为例,对上述两种方法进行验证,结果表明本文的模型方法具有一定的准确性和有效性。并通过对挖掘出的社区结构作进一步分析,更好地揭示了社区内部的组织特征。
其他文献
为了给国内学者们在该领域的后续研究提供有益思路,针对国内档案服务研究领域的现状以及发展趋势进行较为系统的分析变得尤为重要。以中文社会科学引文索引数据库中收录的200
正读、误读和歧解是文学接受中读者对某一作品阅读和理解的三种基本形态。其中,既包括对作品某一人物形象、艺术技巧、语言结构的认识,也包括对作品整体意义和价值的把握与探
瑞雪飘飞冬意浓,治水兴水踏新程。刚刚闭幕的长江委2020年工作会议,是在水利改革发展总基调向纵深推进,治江事业进入全新发展阶段的关键时期,召开的一次重要会议会议深刻分析
习近平总书记在全国宣传思想工作会议上指出,做好舆论引导工作,一定要把握好时、度、效。如何在突发事件造成的恐慌面前做好舆论引导工作,一直是公安机关面临的挑战。他山之石,可
N-吡唑啉酮基-α-氨基膦酸酯的合成及其生物活性的研究龙韫先,张克胜,邱德文(南开大学元素有机化学研究所,天津,300071)关键词氨基膦酸酯,合成,抗病毒活性植物病毒病素有“植物癌症”之称,每年因
目的:探讨miRNA-34b在骨髓间充质干细胞成骨分化过程中的表达及其可能的作用靶点和作用机制。方法:采用密度梯度离心和全骨髓贴壁相结合的方法分离培养人骨髓间充质干细胞(human
在最近几年,国内基金产业的整体水平发展较快,开放式基金增长迅速,在2018年整体经济下行,股市低迷的情况下仍然受到大多数投资者的偏爱。那么,作为一个普通的个人投资者要怎样选择合适的基金产品呢?被投资者们选择信任、寄予众望的基金经理真的拥有比较专业的投资分析能力并给他们带来所期望的收益吗?基金经理又是怎样通过合理的资产配置来取得超额收益,他们遵循了基金创立之时所宣称的投资策略与投资风格了吗?这些都是
半柔性同轴电缆具有优良的电气、机械及环境性能,即屏蔽好、驻波小、衰减低、温度广、频率高、可靠性高、弯曲柔软性好等特点,将广泛应用于地面移动系统、无线通讯、广播电视、及数字化超高频行业等。5G技术的推广和通讯设备的小型化,更加注重狭小空间的复杂布线能力,半柔性同轴电缆与柔性电缆和金属管型同轴电缆相比,更具优势。在高密度铜丝编织网既同轴电缆外导体上整体镀锡是生产高性能半柔性同轴电缆的关键工序之一,目前
日本血吸虫病是广泛流行在我国南方地区,危害极大的一种寄生虫病。血吸虫尾蚴的防治是消灭血吸虫病的重要途径。根据尾蚴的水面生活习性课题组前期研发了自扩散血吸虫尾蚴药
吸烟对精液质量的影响李丹滨,李长春随着人们对吸烟危害认识的不断深入,吸烟者不再认为吸烟仅有害于自己,而且还危害妇女和未出世的胎儿.近年来,国外学者对吸烟者生殖能力,尤其是男