社交网络中的标签主题识别及社群挖掘方法研究

来源 :大连理工大学 | 被引量 : 5次 | 上传用户:wnijiushisb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术与社会化媒体的迅速发展为人们获取信息、发表意见、交互活动提供了开放的、便捷的平台。海量复杂的信息产生在这种社交网络上,其背后隐藏着潜在好友、意见领袖、热点事件等有用的信息,而获得这些有用信息的关键是寻找具有相似性特征的用户群体——社群。实施有效的社群挖掘不仅影响着人们的生产和生活,也对促进社会的和谐发展具有十分重要的意义。社交网络的信息主要来源于用户生成和交互的文本内容,因此,社群挖掘不再是单一网络结构的发现,而是更需要着眼于对这些文本信息语义的理解和内容上的挖掘。本文借鉴社会标签系统的信息组织模式,以用户关系为研究对象,开展面向标签主题识别的社群挖掘的研究工作:1)提出一种基于标签主题的用户重要性区分方法。用户的兴趣可能是多方面的,而传统方法对用户的“多兴趣”并未加以区分,致使用户重要性区分并未在用户的同一兴趣类别中进行,导致了用户相似性度量的“兴趣偏差”问题。针对这一问题,本文在大众分类模式网络中,首先采用标签聚类方法来识别兴趣主题,并归类用户;然后在兴趣主题相同的用户社群中,结合社会网络分析和PageRank方法构建用户重要度指标;最后将该指标引入用户相似度模型,在delicious数据集上进行有效性的验证,并在好友推荐中得以应用。2)构建结合时间因素的用户兴趣更新模型。建立社交网络的用户兴趣模型对于提供高质量的网络个性化服务具有重要意义,而识别用户兴趣的变化则是建模中的难点。针对并未以大众分类模式搭建的社交网络的标签并不丰富的特点,以LDA(Latent Dirichlet Allocation)主题模型中的“词语”作为标签,将标签语义特征和时间特征相结合构建用户兴趣更新模型。按照微博信息量的不同将用户划分为两大类:针对微博信息丰富的老用户,引入时间权重函数构建用户LDA兴趣更新模型;而针对微博信息较少的“冷启动”用户,采用空间向量相似性度量方法构建用户的兴趣模型,并通过学习模型对用户的兴趣变化进行识别,实现对用户兴趣模型的更新。在微博数据集上对所提出的方法进行了应用,并获得了网络的主题、网络主题的核心用户以及用户的兴趣。3)提出一种综合考虑用户社会关系和用户生成内容社群划分的方法。本部分包括两个阶段的工作:用户综合相似度的确定和基于信息粒度的社群划分。第一阶段从用户社会关系和用户生成内容两个视角,采用链接预测方法优化社会关系模型,采用“细粒度”用户标签和“粗粒度”内容标签构建用户“标签-主题”关系模型,将这两个模型加权汇总并设定可适应性的调节参数,建立融合社会关系和用户内容的用户综合相似度模型。第二阶段针对K-Means聚类算法的不足以及数据的高维性和稀疏性的缺陷,将信息粒度原理应用于用户聚类分析中,给出用户等价关系的隶属度和广义的等价关系,在此基础上提出一种基于信息粒度的社群划分算法。实验结果表明,由于有效融合了用户的社会关系这一重要信息和引入信息粒度方法,提出的模型与未加权的用户标签主题模型、K-Means相比,获得了更好的Ⅰ指标和Dunn指标评价结果。4)提出社群的知识增长测度及用户选择方法。将社会标签系统应用于知识服务研究中,借鉴前文社群挖掘关键技术和研究成果,建立一种混合标签本体模式下的语义知识库,分析生成的知识社群组成及特征。将个体与组织之间的知识转移进行量化表示,对知识社群内的知识存量和知识增长进行测度。从内容感知的角度,结合相似度计算模型,设计知识转移过程的用户选择算法,优化知识转移,进而推动知识在群体内的良性高效流动。
其他文献
从国际背景来看,随着国际贸易自由化和经济全球化的不断加深,各国的经济依赖性和联动性比以往任何时代都要强烈,世界气候、资源与环境等问题也成为了各国在注重经济增长的同
甘肃农业大学原副校长张国民,“违反政治纪律和政治规矩,搞政治攀附和人身依附,参与团团伙伙,谋取政治利益”;陕西省榆林市横山区委原副书记、区政府原区长周建国,“违反政治纪律和
报纸
一个多世纪以来,中国的法语教学研究和实践经验的丰富积累,使得法语教学获得了较大的发展。虽然法语教学在中国已经有多年的经验,教师依然难以避免教学中的难题。法语语法教
对当代中国社会思潮的考察不能回避近代中国活跃着自由主义、文化保护主义和激进主义三大思潮。而作为当代中国的指导思想,马克思主义是不断得以丰富和发展的意识形态体系。
由市价比每股净利所得的市盈率在股票估值中不具备实际意义,而由实际市盈率与理论市盈率的比值可以较为准确地判断股票价格未来的大趋势,在符合稳定增长模型的企业中这种关系
歌剧这一综合性的大型艺术形式,在中国一直处于不断地发展、进步。近几年,中国原创歌剧出现了“井喷”的现象,在各大舞台上不断地出现一些新的作品。这不仅大大拓宽了中国歌
增强现实是目前可穿戴电子领域的研究热点,通过归纳分析AR国内外重要申请人的关键技术,发现AR技术的关键技术分支包括显示技术、人机交互控制、三维注册技术;从全球及中国角
目的探讨改良情景模拟教学法在外科护理学教学中的应用效果。方法选取我院2017级三年制高职护理专业1班(48人)作为实验组,采用改良情景模拟教学法进行课堂教学;2班(49人)作为
在医疗市场日益激烈的竞争中,如何培养实用性的护理人才,使学生在毕业后能够尽快适应临床工作的需要,独立进行护理操作,是摆在护理教师面前的一个重要问题。国家教育部在其制
随着科技革命的推进,国际分工经历了产业间分工、产业内分工和产品内分工进而到工序分工的发展过程。分工的演进离不开要素的流动,中国是劳动力大国,区域间阶梯状经济发展水