社会化媒体中基于社区的数据挖掘及其应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jiangweiwei_521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化媒体(Social Media),是一种给予用户极大参与空间的新型在线媒体。它能极大的改变并丰富人们的上网及生活方式,因此关于社会化媒体数据的分析和挖掘是当今的一大研究热点。社区,特别是潜在的社区,作为社会化媒体中的一种天然组织,尽管也吸引了很多研究者的目光,但基于社区对社会化媒体进行系统分析的工作仍然很少。本文的主要工作即是,社会化媒体中基于社区的数据挖掘研究及其应用。   本文基于大规模真实的社会化媒体数据,对社会化媒体中基于社区的数据挖掘技术进行了探索和研究,涉及其中几个关键问题,包括社会化媒体中的社区发现、社区内的热点预测、社区内的影响力用户发现。论文的主要工作和贡献有:   1.提出了基于用户兴趣及社交拓扑结构的社区发现算法。社会化媒体中的社区不仅依赖于用户间的社交关系,还与他们之间的兴趣密切相关,因此本文通过将兴趣和社交关系融合进行社区发现。本文首先利用社会化媒体中的各种内容和社交关系特征分析用户的兴趣,计算用户之间的兴趣相似度;然后,在融合用户兴趣的加权社交关系网络上进行随机游走,从而得到用户间的最终相似度,该相似度既考虑了用户的兴趣因素,也受到社交拓扑结构的影响;最后,本文采用经典的聚类方法以发现社区。实验结果表明,通过融合用户兴趣,社区发现的效果有所提高。   2.研究了社区内的热点预测问题,并依此进行内容推荐。社区内的热点是指被一个社区内大量用户所转发分享的内容。本文提出了特征加权预测模型以预测社区内的热点。本文首先探讨了一系列影响用户转发行为的特征,包括消息自身特征,消息作者特征,社区特征以及相互关联特征,然后通过信息增益的方法分析了各特征的重要性,最后依各特征的重要性提出了特征加权机制,以使重要的特征能发挥更大的作用。实验结果表明,本文的特征加权模型能有效预测社区内的热点,并且通过预测社区内热点以进行内容推荐,效果优于基于全局和个人热点的内容推荐。   3.探讨了如何发现社区内有影响力用户的问题,并依此进行好友推荐。首先,提出了阅读-转发模型,它通过一系列能表征用户间影响力的潜在因素,如用户发布内容的质量、用户的社会地位、用户间的“同质性”等,计算相邻用户间的直接影响力;其次,提出了多路径非线性阈值模型,通过模拟用户间的影响力在社会化媒体中的传播过程,计算任意两个用户间的影响力,并最终得到有影响力的用户。实验结果表明,在发现社区内影响力用户的任务中,本文提出的算法有最佳的效果,并且利用社区内的影响力用户进行好友推荐,其表现也优于基于全局影响力用户的好友推荐。   4.设计了社会化媒体中基于社区的推荐系统原型。作为应用,论文在总结博士期间所做工作的基础上,设计了一套适用于社会化媒体的基于社区的推荐系统原型,并实现了其中的关键模块:基于社区的推荐引擎。该系统能够发现社会化媒体中潜在的社区,并在此基础上进行内容推荐和好友推荐。
其他文献
命名实体歧义是指同一个实体指称项在不同上下文环境中对应不同真实世界实体的语言现象。实体歧义问题给信息处理领域的很多任务带来了严重问题,信息检索和抽取、知识工程等任
目前,机柜已经成为计算机行业、通信行业和互联网行业中不可缺少的用品。机柜是通过电源机柜进行供电的。机柜中的电子设备能否安全、可靠、稳定的运行取决于电源机柜是否能
在实际应用中,仅利用机器人的重复定位来完成结构化环境中的任务已不能满足市场的需求,提高机器人的绝对定位精度使机器人能够自主完成任务是当今劳动成本高、生产竞争激烈的市
手写汉字识别因其重要的理论意义和潜在的应用价值,吸引了大量的研究者。在有限制自由书写的数据集上,手写汉字识别已经取得了较大的成绩,但针对自由手写汉字识别的研究较少且识
作为依据已解决案例解决新问题的技术,基于案例推理呈现出其在提高复杂结构和未知结构决策问题上的精确性和有效性的重大前景。相似问题具有相似的解决方案是基于案例推理的
该文把专家系统技术、模糊集合、不确定理论与控制理论和方法结合,设计并实现了一个新型的用于过程控制的专家控制系统外壳ECSS.ECSS采用了黑板模型,其知识库能够分成多个知
乒乓球机器人系统涉及视觉测量、模式识别、物理建模和学习系统等,近年来得到了许多研究人员的关注。本文围绕乒乓球机器人系统中乒乓球的轨迹预测、击打点的选择以及任意来球
考虑到工业生产过程的可靠性和安全性,工业上使用的仪表和电子类产品已不仅仅局限于对产品功能实现的要求。仪表的可靠性和安全性越来越成为仪表是否具有国际竞争力的极为重要的指标。在国外,尤其是欧美等国家,他们对于工业使用的仪表和电子产品建立了很多高要求的工业标准。这些标准保证了工业使用仪表的可靠性和安全性。遵循这一系列标准和理论设计出来的表在可靠性和安全性方面确实表现出了较大的优势,使得众多厂商受益。而反
两轮自平衡机器人是轮式移动机器人中的重要成员,具有体积小、重量轻、运动灵活等优点,具有很高的实用价值。自平衡机器人系统具有非线性、多变量、强耦合的特点,因此也具有很高
时滞现象在自然界中是广泛存在的。它往往会导致系统性能变差或恶化,同时它也是引起系统不稳定的主要因素。对时滞系统的研究一直是一个热点问题,引起众多学者的普遍关注。对于