基于大众标注的网络群体事件主题分类研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:yipan1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的不断发展,大众标注技术得到了广泛的应用,使得舆论传播和人际交往方式发生了革命性的变化。用户通过微博、社交网站对文本进行标注以及评论,引发了越来越多的网络群体事件。网络群体事件的预警及应对引起了社会、政府以及学术界的高度关注。网络群体事件预警的关键技术是识别网络群体事件的主题类型,即只有明确了事件的主题类型,才能够对网络群体事件有初步的判断、识别和评价。传统的分类是自上而下的、标准单一、缺乏集体智慧,因此如何在新型网络环境下对网络群体事件主题分类是近年来研究的热点。本文对基于大众标注的网络群体事件主题分类研究工作主要包含以下两点:(1)首先基于形式概念分析理论对大众标注数据集进行分析。大众标注数据集包含了用户、资源、标签三元关系数据,但由于其标注的自由性、开放性等特点,造成标签呈现扁平化、缺乏层次性,还不能准确地标识资源的语义,影响了用户发现资源主题的效率。本文通过形式概念分析理论建立概念格,从用户标注行为和用户偏好两个方面进行分析标记数据、挖掘隐性知识。在研究用户标注行为中,通过计算所有“用户—标签”节点的链接条数和链接深度,挖掘领袖用户(权威用户)以及用户群体。对于用户偏好的研究,计算“用户—资源”节点的频率和节点中的位置,发现用户偏好资源。(2)针对传统的分类算法在处理降维、数据稀疏、缺乏语义以及主题发现方面存在的不足,本文提出了基于标注的LDA(Latent DirichletAllocation)模型的文本分类方法。在LDA模型的文本、主题、词语三层结构中,引入标签Tag层进行主题建模,更好的挖掘出文本主题。利用Gibbs抽样算法进行推理计算,获取主题中的词语概率分布、文本中的主题概率分布以及主题中的标签概率分布。首先分析“主题—词语”概率矩阵,按照概率从大到小的原则进行排序,对接近或等于0的词语进行过滤,降低词语的维度,进而计算主题之间的相似性。接着分析“主题—标签”的概率矩阵,把主题作为标签的特征向量,进行标签相似化计算。最后通过分析标签在文本中的出现频率计算标签权重,以及在“文本—主题”概率矩阵基础上构造文本分类器,对网络论坛、微博和社交网站中,网民关注的网络群体事件进行分类,实验表明基于标注的LDA模型的分类方法的可行性、准确性和优越性。
其他文献
基于非接触式IC卡的校园“一卡通”系统是IC卡在教育领域的一个重要应用。读卡器是“一卡通”系统中最主要设备之一,读卡器本身一般带有RS-232接口或者标准RS-485接口,可支持
移动终端逐渐成为人们的日常生活和工作中不可或缺的一部分,越来越多的移动终端接入互联网,网络资源的共享跨越了时空的限制,信息安全问题暴露的越来越多。随着人们消费观念的改
Skyline查询返回数据集合中不被任意对象支配的对象,描述了数据集的轮廓,在多目标决策、偏好查询等领域具有重要应用。目前 Skyline查询受到了学者的极大关注,在集中式环境和分
数据挖掘是在海量数据中发现模式和数据间关系、并利用这些模式和关系进行预测的过程。为迎接海洋21世纪,我国从国家发展战略的高度出发,将发展“数字海洋”列入“十五”和2015
随着社会分工向专业化细分方向的发展,“专、精、深”的专业化信息服务需求日益增大,网络中涌现出了大量的专业化信息网站,搜索引擎技术也逐渐从通用搜索向专业搜索方面演变,
随着无线通信技术的不断发展,无线网络的应用也逐渐变得广泛。无线通信技术之一的Ad Hoc网络,具有灵活,不依赖于固定设施,可以快速建网的特点。但是由于无线通信本身的特点,A
面向服务的计算(Service-Oriented Computing,SOC)为企业软件集成和分布式系统提供了一种灵活的解决方案。面向服务的体系架构(Service-Oriented Architecture,SOA)是面向服
随着Internet在全球范围的发展,人们对通信系统的容量、带宽及传输质量等都提出了更高的要求。采用密集波分复用技术(DWDM,DenseWavelength-DivisionMultiplexing)的光网络可以
Random oracle model方法论是Bellare和Rogaway在20世纪90年代中期提出的。Random oraclemodel方法论的出现,使得过去仅作为纯理论研究的可证明安全性理论,迅速在实际应用领域
在网络互联技术迅速普及的今天,人们的视野也随着计算机网络的延伸而开阔,网络信息的安全也越来越被人们所关注,防火墙虽然在访问控制方面性能卓越,但对于网络上的数据包内容却视