基于分布式表达的微博话题检测与情感分类研究

来源 :东北林业大学 | 被引量 : 3次 | 上传用户:supercow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,社交媒体在人们日常生活中扮演着越来越重要的角色。人们通过社交媒体发布各种各样的信息,参与对社会事件的讨论与交流。庞大的用户群之间的信息传播产生了海量的文本数据信息,这些数据吸引了广大的研究者来探索社会热点问题以及大众舆论的发展规律。本文将新浪微博这一近年来急速发展的社会媒体平台为研究对象,从新浪微博开放平台API中获取微博文本数据。考虑到传统的文本表示方法中存在的矩阵高维稀疏性、忽略语义、语法和语序等问题,本文将基于词语分布式表达的方法与传统赋权方法相结合,融入到话题检测研究中,实现了一套新的话题检测方法。然后,尝试用一种新颖的、高效的方法对相关微博进行情感极性分类,判断用户微博的情感倾向。本文的研究内容主要包含两个方面:微博的话题检测与情感分类研究。利用一套话题检测方法,主要是将基于词语分布式表达的方法——"Word2vec"与传统的权重计算方法TF-IDF相结合,将每一条获取到的微博进行文本向量表示,然后采用K-means聚类算法进行话题聚类,从而得到相关话题。通过上述方法检测出微博用户讨论的相关话题,且用实验论证了方法的可行性与准确度。在完成话题检测的相关工作后,标注出了与话题相关的且带有明显情感极性的微博,引入了基于文档分布式表达的方法——"Doc2vec",来完成文本的特征表达。此前U,Doc2vec从未被运用于中文文本的情感分类研究中。最后利用支持向量机(SVM)分类器来进行情感分类,并用十折交叉法来验证该套方法的分类准确性。本文分别通过聚类与分类的实验结果验证了基于词语和基于文档分布式表达的方法在文本特征表示方面的良好效果,分别取得了80.06%和90.35%的准确率。相比其他文本表示方法,基于词语和基于文档分布式表达的方法能很好地解决文本表示矩阵高维稀疏、忽略语义、语法和上下文以及情感信息考虑不全等缺点,较为准确高效地将文本表示为特定维度的向量,方便研究者对微博文本进行相关研究。同时,通过大量实验总结出了使用分布式表达方法的经验值,包括训练语料规模对实验效果的影响以及特征维度的设置等等,都可以为今后研究提供参考。
其他文献
补偿机制是数据库事务管理中重要组成部分,是事务恢复的重要手段。虽然补偿机制在高级事务模型、分布式环境和Web服务标准中已被广泛使用,但是目前经常使用的各种标准和规范中
本文研究了在高速网络下时滞系统的最优扰动抑制问题,主要内容概括如下:1.在高速通讯网络环境下建立含有控制时滞与测量时滞的系统的数学模型,并将其离散化。2.利用模型转换将
理论和工程实践有许多组合优化问题,因此寻找快速、有效的方法解决组合优化问题十分必要。近十年来,差分演化算法作为一种新兴的智能算法,得到了广泛而深入的研究,其离散形式可以
无线Mesh网络具有自组织、自愈、自配置、多跳式等优点,越来越受到众多研究者的青睐。带宽受限以及信道干扰是影响无线网络的主要因素,如何合理有效地利用多网卡、多信道技术增
随着云计算技术的快速发展和普及,云计算技术正在不断地促进和影响虚拟桌面的发展。SPICE协议是一种开源的虚拟桌面传输协议,它通过在虚拟环境中部署远程桌面显示系统,虚拟桌
Prolog是当前最有影响力的人工智能语言之一,由于其在智能化方面的明显优势,在信息处理领域得到了高度重视和实际应用。但用Prolog开发应用程序面临海量数据持久化的问题。Pr
随着信息时代的发展,海量数据的存储处理成为关键问题,计算机系统的中心将逐步向存储系统转移。因此网络存储得到迅速发展,特别是基于以太网的存储系统的出现,使得网络存储系统的
本论文研究了在Halin图的条件下求解Stacker Crane Problem(SCP)的高效率算法。   SCP描述:给定一个边赋权的混合图G=(V,A,E),找出包含所有弧的一个有向圈,使得该圈上的总代价
本文主要研究视频编码帧间预测技术中的算法优化问题。帧间预测技术是视频编码的重要组成部分,包括整数和分数运动估计与补偿、多模式决策、多参考帧运动估计等。帧间技术能够
有界模型检测是寻找系统错误的一种符号化模型检测技术。它使用可满足性问题求解器求解模型检测问题,避免了其他模型检测技术面临的状态空间爆炸问题,然而它的计算时间复杂度是