论文部分内容阅读
微博是人们日常生活中重要的社交平台,人们经常在微博上发表观点和获取热点信息。微博平台上用户的文本经常围绕着某个特定事件展开,使得讨论同一事件的微博之间存在着内在关联。通过挖掘和某个事件相关的所有微博,可以了解该事件的发展趋势。已有研究工作针对微博文本进行数据挖掘,涉及微博事件的相关研究却相对较少,主要集中于研究微博事件的分类、微博事件的情感分析以及相关应用。针对于带有事件标签的微博,可以描述对应微博事件情感的变化。研究者们目前主要关注微博事件和现实事件的关系,但对于不同类别用户对于微博事件情感的重要性分析和不相关情感子序列的挖掘却鲜有涉及。此外,有些微博不带有事件标签,如果能将每条微博都和对应事件标签相对应,那么对应事件就能够增加更多的有效信息。因此,围绕如上所述微博事件研究中的情感时间序列分析、不相关子序列及事件分类问题,本文的主要工作如下:第一、本文提出了基于微博事件的情感时间序列分析方法。不同类型用户对于不同事件的情感不尽相同。该方法通过不同情感时间序列的度量,研究不同类别用户对于事件的情感重要性。此外,提出了 SentimentRank模型并将其用于情感相似性的度量。该方法通过爬虫爬取的新浪微博事件数据集进行实验并展示了各类别用户情感重要性,同时对结果进行了分析,并进一步通过实验验证了该方法的合理性。第二、本文基于Shapelet提出了一种用于挖掘情感时间序列中不相关情感子序列的方法。针对于微博事件的情感时间序列,通过生成Shapelet,计算出不相关的情感子序列。该方法通过实验展示了所得到的不相关情感子序列,并分析了由该方法找到相应子序列的原因。此外,实验通过情感相似性度量方法验证了该方法的可行性。第三、本文提出一种基于生成对抗网络的微博事件分类方法。微博平台中存在着一些不和事件标签关联的微博。由于微博文本过短、特征稀疏,导致现有方法提取的特征多样性不足。该方法利用生成对抗网络以增加训练数据的特征多样性。该方法在新浪微博爬取的不同事件数据集上进行了实验,并设置了不同参数。实验结果表明,该方法可以获得更好的分类性能。