【摘 要】
:
微博作为时下最热门的社交媒体和网络交流平台,越来越多的用户选择在微博平台中构建个人社交圈的同时,用户自身的博文发布以及用户间的关注互动行为,也让微博网络中蕴含着纷
论文部分内容阅读
微博作为时下最热门的社交媒体和网络交流平台,越来越多的用户选择在微博平台中构建个人社交圈的同时,用户自身的博文发布以及用户间的关注互动行为,也让微博网络中蕴含着纷繁复杂的内容与关系数据。如果能够利用这些数据,从微博用户庞大的虚拟关系网络中准确识别和挖掘出其对应的社交圈信息,不仅能够极大的便利用户个人关系网络的管理工作,而且在个性化推荐、影响力传播、舆论预警等方面也有着非常重要的作用。为解决数据来源问题,首先分析了微博网络关注与传播机制以及博文内容的特征。针对微博用户社交圈挖掘问题所需要的数据类型及具体要求进行了总结,设计并实现了基于网络爬虫技术的微博数据采集系统,以作者新浪微博账号作为种子节点,成功抓取到其关注和粉丝列表中总计430个用户节点的关系与内容数据。以抓取到的数据为基础,对微博单向关注机制形成的用户关系特征进行了详细的分析。利用LDA(Latent Dirichlet Allocation)模型设计并实现了用户博文内容主题分布的提取方法,并结合社交网络研究中用户相似度的定义方式,给出了一种融合用户关系以及博文内容主题信息的用户相似度度量方法,用以更好地描述微博用户间的联系与紧密程度。在微博用户融合相似度的基础之上,提出了一种基于节点聚类思想的微博用户社交圈挖掘算法CMUS(Circle Mining Algorithm Based on User Similarity),利用该算法去解决微博网络中心用户社交圈的挖掘问题。最后在获取到的用户数据集上进行相应的对比实验,验证了用户融合相似度指标的有效性,并将CMUS算法与其他社交圈识别方法进行比较,实验结果表明CMUS算法最终得到的社交圈结果更为准确,对微博用户社交圈的还原更加接近于真实情况。
其他文献
随着信息技术的迅猛发展,信息需求量呈现爆炸式的增长,传统网络的弊端日益显现,网络资源出现相对稀缺的情况。作为一种新型网络,自治网络具有自感知、自优化、自配置等特性,是下一代网络发展的必然趋势。自治网络对动态异构复杂网络具有良好的管理适应性,能够合理动态地配置网络资源,提高全网的资源利用率。自治网络概念的引入为网络资源管理问题赋予了新的内涵,为基于定价策略的网络资源分配方法提供了良好的实现环境。本文
红外焦平面阵列(IRFPA)非均匀性的存在,极大的限制了成像系统的性能,因此实现红外焦平面阵列非均匀性自适应校正是高级红外探测系统追求的重要目标。基于场景校正方法的优越性
随着互联网技术的快速发展,数据呈现爆炸式增长,信息过载问题越来越引人注目。协同过滤推荐技术在解决信息过载问题方面已经取得了不错的效果,但在实际应用中随着用户和项目
目前,我国销售行业的步伐正在日益加快,尤其是超市销售行业在规模上更是不断的扩大。随着计算机技术的不断飞速发展与普及,超市企业在管理方面也日益趋向于科学化。超市的销售利
序列模式挖掘是在指定的序列数据集中发现满足最小支持度的所有频繁序列,目前在电子商务领域中获得了广泛的应用。传统序列模式挖掘算法存在两个缺点:第一,对所有序列和所有项
传统网络中存在资源利用率低、问题解决局部性和业务QoS无法保证等问题。随着互联网的快速发展,人们对网络的QoS提出了更高要求,认知网络的提出为以上问题的解决提供了可能。
校园网是学校重要的现代化基础设施,为学校的教学、科研、管理、服务等提供先进、可靠、安全、快捷的计算机网络环境。因此校园网的网络安全至关重要。随着网络互联领域的广
随着内容拥有者维护版权的决心以及普通用户保护个人隐私意识日益增强,一些面向多用户的应用,如数字内容分发、付费观看电视等亟需一种密码体制来防止未授权用户的非法访问并
随着社会的发展和计算机技术的提高,软件系统的规模在不断扩大,软件需求也日益复杂,对软件质量的要求也越来越高。软件测试技术就是保证软件质量最主要的手段,它可以有效地提高软