论文部分内容阅读
随着信息时代的到来,数以亿计的网民通过参与和自治,逐渐形成以新闻评论、BBS、聊天室、博客、维基、聚合新闻、微博等为代表的网络社区。广大网友以网上交流的形式已经形成了现今不容忽视的一大现象——网络舆情。对于网络舆情的研究是当前的一大热点。而对于网络评论的倾向性分析则是网络舆情研究中的重要课题。本文主要的创新点在于提出了对于情感词权重进行训练的思想;提出了基于神经网络的网络舆情文本倾向性分析系统,包括详细的算法部分以及引出的基于神经网络的情感词汇自动获取方法;整个算法在情感词词汇的自动获取方面能够做到全自动化,在篇章级的文本倾向性分析中的准确率较高,对于网络评论的倾向性能够进行全面系统的分析。在句子和篇章级的文本倾向性分析方面,研究者将主观文本的极性分为褒义和贬义两类。目前主要有两种方法:基于情感知识的方法以及基于特征分类的方法。基于情感知识的文本倾向性分析方法使用知识库得到情感词典或领域词典,然后进行极性加权求和的方法来进行分析。基于神经网络的网络舆情文本倾向性分析算法属于该类算法:在已有的词典基础上使用神经网络训练的方法对于情感词倾向值词典进行更新,从而能够反映最新预料的特征,改进网络评论的倾向性预测准确度。我们通过实验进行测试,证明了本算法能够达到较好的准确率。情感词词典的更新一直是文本倾向性分析中的重要的研究课题,然而现有的更新情感词词典的算法或多或少都会需要人工的参与。鉴于此,我们提出了基于神经网络的情感词汇自动获取方法,使用神经网络训练算法对统计得到的候选情感词进行训练,然后经过筛选得到更新后的情感词词典。本文对于算法进行了细致的描述,最后通过实验进行验证,证明了本算法能够自动获得情感词,同时对于文本倾向性的预测能够起到增加准确率的效果。最后,我们对于本文的工作进行了总结,同时对于将来的研究方向进行了展望,提出了几条后续的研究工作,望后续的学者能够继续本文的工作。