论文部分内容阅读
随着互联网的日益普及,越来越多的电商平台以及社交网络平台进入人们视野,给人们的生活带来了很多便利。现在很多人喜欢通过微博等社交网络平台上对热点事件发表自已的看法或了解他人的想法,同时人们也喜欢在京东、淘宝、考拉海购等电商平台上发表自已对某商品的体验或者通过他人评价决定是否进行购买。众多的网民所产生的庞大的网络评论数据有着巨大的社会价值和商业价值,这些网络评论包含了网民的观点以及情感,对这些文本数据进行情感分析,可以为政府制定相关政策提供依据,还可以帮企业了解用户对某一商品或服务的情感态度。本文主要对网络评论进行情感分类研究。最早是通过情感词典对文本进行情感分类研究,现在能够通过机器学习对文本进行情感分类研究。本文在这两种方法的基础上进行了相关改进,然后对网络评论进行情感分类:(1)通过情感词典对网络评论进行情感分类,其主要是通过情感词对文本进行情感倾向判断,该方法的核心是情感词典的构建,情感词典的完整度直接影响了最后情感分类的准确率。传统的方法通过SO-PMI算法进行情感词典的扩充,但是当数据稀疏时,会造成误判。通过SO-PMI算法与Word2vec结合的方法进行情感词典的扩充,该方法考虑了词汇的语义信息,最后的情感分类效果更好。(2)通过机器学习对网络评论进行情感分类,通常将语料分为训练集以及测试集,然后进行文本预处理、特征选择、特征表示以及分类器训练,最后通过所得的分类器对文本进行情感倾向性分析。目前主流的特征表示方法是Word2vec,但是没有考虑词汇的语序信息,而fasttext加入了N-gram可以有效解决语序问题。因此本文提出fasttext算法与分类器结合的方式进行情感分类,比传统文本情感分类方法更具优势。(3)基于情感词典的情感分类方法对于情感倾向性比较明显的文本有较高的准确率,而对情感倾向性模糊的文本准确率较低。针对以上问题,本文通过将情感词典和机器学习结合对文本进行情感分类,最后的情感分类效果比传统方法更好。(4)本文基于文本情感分类的理论分析,进行相关可视化的应用研究,设计了一个情感分析系统,并对其进行实现以及测试。