论文部分内容阅读
如今,社交媒体在人们日常生活中扮演着越来越重要的角色。人们通过社交媒体发布各种各样的信息,参与对社会事件的讨论与交流。庞大的用户群之间的信息传播产生了海量的文本数据信息,这些数据吸引了广大的研究者来探索社会热点问题以及大众舆论的发展规律。本文将新浪微博这一近年来急速发展的社会媒体平台为研究对象,从新浪微博开放平台API中获取微博文本数据。考虑到传统的文本表示方法中存在的矩阵高维稀疏性、忽略语义、语法和语序等问题,本文将基于词语分布式表达的方法与传统赋权方法相结合,融入到话题检测研究中,实现了一套新的话题检测方法。然后,尝试用一种新颖的、高效的方法对相关微博进行情感极性分类,判断用户微博的情感倾向。本文的研究内容主要包含两个方面:微博的话题检测与情感分类研究。利用一套话题检测方法,主要是将基于词语分布式表达的方法——"Word2vec"与传统的权重计算方法TF-IDF相结合,将每一条获取到的微博进行文本向量表示,然后采用K-means聚类算法进行话题聚类,从而得到相关话题。通过上述方法检测出微博用户讨论的相关话题,且用实验论证了方法的可行性与准确度。在完成话题检测的相关工作后,标注出了与话题相关的且带有明显情感极性的微博,引入了基于文档分布式表达的方法——"Doc2vec",来完成文本的特征表达。此前U,Doc2vec从未被运用于中文文本的情感分类研究中。最后利用支持向量机(SVM)分类器来进行情感分类,并用十折交叉法来验证该套方法的分类准确性。本文分别通过聚类与分类的实验结果验证了基于词语和基于文档分布式表达的方法在文本特征表示方面的良好效果,分别取得了80.06%和90.35%的准确率。相比其他文本表示方法,基于词语和基于文档分布式表达的方法能很好地解决文本表示矩阵高维稀疏、忽略语义、语法和上下文以及情感信息考虑不全等缺点,较为准确高效地将文本表示为特定维度的向量,方便研究者对微博文本进行相关研究。同时,通过大量实验总结出了使用分布式表达方法的经验值,包括训练语料规模对实验效果的影响以及特征维度的设置等等,都可以为今后研究提供参考。