论文部分内容阅读
Web2.0技术与社会化媒体的迅速发展为人们获取信息、发表意见、交互活动提供了开放的、便捷的平台。海量复杂的信息产生在这种社交网络上,其背后隐藏着潜在好友、意见领袖、热点事件等有用的信息,而获得这些有用信息的关键是寻找具有相似性特征的用户群体——社群。实施有效的社群挖掘不仅影响着人们的生产和生活,也对促进社会的和谐发展具有十分重要的意义。社交网络的信息主要来源于用户生成和交互的文本内容,因此,社群挖掘不再是单一网络结构的发现,而是更需要着眼于对这些文本信息语义的理解和内容上的挖掘。本文借鉴社会标签系统的信息组织模式,以用户关系为研究对象,开展面向标签主题识别的社群挖掘的研究工作:1)提出一种基于标签主题的用户重要性区分方法。用户的兴趣可能是多方面的,而传统方法对用户的“多兴趣”并未加以区分,致使用户重要性区分并未在用户的同一兴趣类别中进行,导致了用户相似性度量的“兴趣偏差”问题。针对这一问题,本文在大众分类模式网络中,首先采用标签聚类方法来识别兴趣主题,并归类用户;然后在兴趣主题相同的用户社群中,结合社会网络分析和PageRank方法构建用户重要度指标;最后将该指标引入用户相似度模型,在delicious数据集上进行有效性的验证,并在好友推荐中得以应用。2)构建结合时间因素的用户兴趣更新模型。建立社交网络的用户兴趣模型对于提供高质量的网络个性化服务具有重要意义,而识别用户兴趣的变化则是建模中的难点。针对并未以大众分类模式搭建的社交网络的标签并不丰富的特点,以LDA(Latent Dirichlet Allocation)主题模型中的“词语”作为标签,将标签语义特征和时间特征相结合构建用户兴趣更新模型。按照微博信息量的不同将用户划分为两大类:针对微博信息丰富的老用户,引入时间权重函数构建用户LDA兴趣更新模型;而针对微博信息较少的“冷启动”用户,采用空间向量相似性度量方法构建用户的兴趣模型,并通过学习模型对用户的兴趣变化进行识别,实现对用户兴趣模型的更新。在微博数据集上对所提出的方法进行了应用,并获得了网络的主题、网络主题的核心用户以及用户的兴趣。3)提出一种综合考虑用户社会关系和用户生成内容社群划分的方法。本部分包括两个阶段的工作:用户综合相似度的确定和基于信息粒度的社群划分。第一阶段从用户社会关系和用户生成内容两个视角,采用链接预测方法优化社会关系模型,采用“细粒度”用户标签和“粗粒度”内容标签构建用户“标签-主题”关系模型,将这两个模型加权汇总并设定可适应性的调节参数,建立融合社会关系和用户内容的用户综合相似度模型。第二阶段针对K-Means聚类算法的不足以及数据的高维性和稀疏性的缺陷,将信息粒度原理应用于用户聚类分析中,给出用户等价关系的隶属度和广义的等价关系,在此基础上提出一种基于信息粒度的社群划分算法。实验结果表明,由于有效融合了用户的社会关系这一重要信息和引入信息粒度方法,提出的模型与未加权的用户标签主题模型、K-Means相比,获得了更好的Ⅰ指标和Dunn指标评价结果。4)提出社群的知识增长测度及用户选择方法。将社会标签系统应用于知识服务研究中,借鉴前文社群挖掘关键技术和研究成果,建立一种混合标签本体模式下的语义知识库,分析生成的知识社群组成及特征。将个体与组织之间的知识转移进行量化表示,对知识社群内的知识存量和知识增长进行测度。从内容感知的角度,结合相似度计算模型,设计知识转移过程的用户选择算法,优化知识转移,进而推动知识在群体内的良性高效流动。