论文部分内容阅读
随着互联网的日益普及,尤其是Web2.0的不停的发展,用户的参与度大大提高,互联网上产生了大量对诸如人物、事件、产品等具有情感倾向的评价性信息。网络传媒中的情感词语的强度量化是指面向媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。通过对情感词语强度的量化的分析,人们可以清楚的辨别出所产生的情感强度是正向情感强度、还是负向情感强度、又或者是中性情感强度,从而进行正确的判断、认知和交流。也正因如此,越来越多的用户乐于在网络传媒平台上分享信息,交流观点和情感。通过对这些获取的信息展开情感分析,可以实现网络传媒营销、品牌宣传、客户关系管理、舆情监控等。目前已有的相对成熟的关于微博的情感倾向分析和研究,大部分是针对英文微博而言的,而这种对英文微博的研究成果应用到中文微博的领域,就存在着明显的局限性。所以,对中文微博的情感倾向分析的研究基本上处于初级阶段,还在进一步的研究和发展当中。网络传媒中情感词语的情感强度量化是当今社会网络中数据挖局的一大研究热点。按网路传媒上发表的文本研究粒度来分,情感分析通常分为词汇情感倾向分析、句子情感分析和篇章情感分析,其中词汇情感分析又是文本情感分析的基础和前提。对情感词语的情感强度进行量化分析具有重要的理论和应用价值。中文网络传媒情感分析按照处理层面的不同可以分为主题无关和主题相关分析,分析方法主要分为两类,一是基于情感词典的方法,另一类是基于机器学习的方法.本文对目前中文网络传媒情感分析的主要流程和处理方法进行了探讨,对两类方法的特点及其研究现状进行了分析比较,对不能完全准确进行情感分类的主要原因进行了归纳总结,为情感分析方法的进一步研究提供了参考方向。情感分析主要是判别媒体对象文本的情感倾向性,即属于正面、负面、中性。比如根据中文微博的自身特点,在传统文本情感分析的基础上,展开对微博的情感倾向分析。首先,对当前已有情感词汇资源加以总结和整理,并运用了扩展的情感倾向点互信息算法(Semantic Orientation Point wise Mutual Information)对任何中文网络传媒微博语料进行实验,自动获得领域情感词,构建一个面向中文微博的情感词典。其次,基于中文微博表达多元化的特点,对微博文本进行预处理,并采用微博消息文本中的情感词作为特征选择标准,对微博消息文本中存在的否定词,程度副词,感叹句,反问、以及微博表情符号等进行相应分析处理。最后对整条微博消息作加权计算获得其情感倾向性,得出一个面向网络传媒中的情感词语的强度量。本文主要综合国内外相关学者之研究,以网络传媒中微博信息为应用背景,研究关于微博信息中所包含的情感倾向。本研究尝试利用自然语言处理技术,解决情感词语的强度量化。基于此,本文主要包括四个方面的内容,首先针对领域内的词语的统计特点和领域规则,抽取出某一个领域的文本。用Vote-AdaBoost(Adaptive Boost)方法对主观性文本进行识别。通过聚类,找出两组最具代表性的褒贬基准词,在这些基准词的基础上可以获得任意一个词语的情感倾向和强度。通过构建情感词典,来获取文本的情感倾向。在计算文本情感时,还考虑了否定词和程度副词对句子的影响。根据本文设计的权重计算方法和情感判断流程,实现对微博短文本中多类情感的判别。实验证明该方法与现有的特征抽取方法相比,能够快速有效的判别特征项在多类别中的权重,实现了利用情感要素来判别微博短文本的情感极性。通过参与多类别情感分类的评测任务,进一步验证了本文网路传媒中的情感词语强度量分析方法的有效性。