论文部分内容阅读
随着互联网不断发展,如今数以亿计的网民可以通过微博、论坛、贴吧等社交平台对热点问题发表意见和建议,时刻都在产生海量的数据。这些数据具有增长迅速、结构多样、动态更新、范围广泛等特点,蕴含着社会各个阶层的公众情感信息。进行公众情感信息数据挖掘研究,对于信息检索、电子商务、舆情监控等领域具有重要意义。社交网络公众情感信息挖掘已经进入海量数据处理阶段,并且实时性需求越来越迫切。目前针对海量公众情感信息挖掘通常采用非实时性的批处理计算方式,且挖掘研究较少涉及到实时计算业务及互联网短文本情感极性特征。因此针对社交网络公众情感极性实时计算课题,本文分别从文本情感计算和流式实时计算两个方面展开研究:(1)文本情感计算的准确性将直接影响社交网络公众情感挖掘效果。由于社交网络公众信息,通常具有语句结构不规整、上下文语境复杂多变、网络词汇及情感符号丰富等特征,于是文本情感计算容易发生较大偏差。通过研究文本情感计算构建情感词典及模板匹配方法,本文提出一种综合两者特征且结合其它情感极性影响因素的规则匹配方式短文本情感极性计算方法。首先,将情感本体词语区分为单极性词语与多极性词语。接着,单极性词语根据相应的情感词典进行情感极性及强度标注,而多极性词语则运用结构规则匹配与关键词规则匹配进行词语情感极性计算。在完成词语级别的情感极性值计算之后,然后结合修饰词、句子语气及表情符号情感影响因素,最后进行语句及短文本层面的情感极性值计算。(2)针对社交网络中公众情感信息实时挖掘的业务需求,且结合社交网络中流式短文本数据的特征,本文提出关于流式短文本数据的一种通用实时计算模型,即RUBP模型。其中RUBP模型的核心实时计算模块是依托于Twitter Storm框架实现,因此RUBP计算特征与Storm框架计算特征类似。基于通用实时计算模型,研究与业务挖掘相关的流式计算方法,其中包括顺序计算方法和趋势计算方法,并对于RUBP模型进行性能优化,提出基于拓扑结构和基于通信量的两种不同调度改进方式。(3)结合上述研究内容,本文进行了社交网络公众情感极性实时计算实验与分析。针对某一热点事件的微博数据,运用RUBP模型与基于规则匹配的短文本情感极性计算方法,进行模拟实时计算实验,并通过批处理实验进行比对。实验结果表明RUBP模型与基于规则匹配的短文本情感极性计算方法具有较好的可行性,且两者结合可以进行社交网络公众情感极性实时计算研究工作。