论文部分内容阅读
随着网络的不断发展,大众标注技术得到了广泛的应用,使得舆论传播和人际交往方式发生了革命性的变化。用户通过微博、社交网站对文本进行标注以及评论,引发了越来越多的网络群体事件。网络群体事件的预警及应对引起了社会、政府以及学术界的高度关注。网络群体事件预警的关键技术是识别网络群体事件的主题类型,即只有明确了事件的主题类型,才能够对网络群体事件有初步的判断、识别和评价。传统的分类是自上而下的、标准单一、缺乏集体智慧,因此如何在新型网络环境下对网络群体事件主题分类是近年来研究的热点。本文对基于大众标注的网络群体事件主题分类研究工作主要包含以下两点:(1)首先基于形式概念分析理论对大众标注数据集进行分析。大众标注数据集包含了用户、资源、标签三元关系数据,但由于其标注的自由性、开放性等特点,造成标签呈现扁平化、缺乏层次性,还不能准确地标识资源的语义,影响了用户发现资源主题的效率。本文通过形式概念分析理论建立概念格,从用户标注行为和用户偏好两个方面进行分析标记数据、挖掘隐性知识。在研究用户标注行为中,通过计算所有“用户—标签”节点的链接条数和链接深度,挖掘领袖用户(权威用户)以及用户群体。对于用户偏好的研究,计算“用户—资源”节点的频率和节点中的位置,发现用户偏好资源。(2)针对传统的分类算法在处理降维、数据稀疏、缺乏语义以及主题发现方面存在的不足,本文提出了基于标注的LDA(Latent DirichletAllocation)模型的文本分类方法。在LDA模型的文本、主题、词语三层结构中,引入标签Tag层进行主题建模,更好的挖掘出文本主题。利用Gibbs抽样算法进行推理计算,获取主题中的词语概率分布、文本中的主题概率分布以及主题中的标签概率分布。首先分析“主题—词语”概率矩阵,按照概率从大到小的原则进行排序,对接近或等于0的词语进行过滤,降低词语的维度,进而计算主题之间的相似性。接着分析“主题—标签”的概率矩阵,把主题作为标签的特征向量,进行标签相似化计算。最后通过分析标签在文本中的出现频率计算标签权重,以及在“文本—主题”概率矩阵基础上构造文本分类器,对网络论坛、微博和社交网站中,网民关注的网络群体事件进行分类,实验表明基于标注的LDA模型的分类方法的可行性、准确性和优越性。