论文部分内容阅读
随着博客、论坛、微博等web2.0应用的蓬勃发展,大量用户评论随之产生。通过对这些评论的分析,可以了解大众舆论对于某一事物的看法和一段时间内公众的情绪变化,因此迅速获取和处理这些评价信息变得尤为重要,而其中核心技术就是文本情感分析。本文提出了情感词网的概念,并以情感词网的自动构建作为研究目标,开展了以下工作: 首先,针对传统语素方法对于种子词语数量的依赖,和传统图方法召回率较低的问题,提出一种将词语间语素关系融入到图模型中,并结合词语同义关系进行中文褒贬词典半监督构建的方法。首先利用语素模型计算词语间语素相似度,然后利用同义词林和双语词典资源,构建词语间同义关系,最后将二种关系结合,并利用标签传播算法进行词语的褒贬分类。 接着,提出了基于非负矩阵分解的情感词网构建方法。首先,基于评论语料库,通过点互信息的方法获取情感词语与评价对象的共现关系,得到情感词语和评价对象的关系矩阵。然后利用非负矩阵分解算法对该矩阵进行分解,得到情感词语之间的共现矩阵和新的情感词语与评价对象关系矩阵。最后,两种关系矩阵和情感词典一起构成情感词网。 最后,针对网络评论因文本短小,语言不规范而造成的基于传统机器学习的分类方法特征稀疏的问题,提出了基于情感词网特征扩展的文本分类方法。方法将原有的情感词语等特征通过情感词网扩展得到其概念空间。实验表明该方法缓解了特征稀疏的问题,从而改进了分类效果。