论文部分内容阅读
随着虚拟社区这一新网络团体形式的出现,各种论坛应运而生,这些论坛上充斥着人们对生活及周边事物的评价和看法。在这些意见和和评论中,包含着说话人的主观意见,表达了评论人的情感倾向。识别出其中带有的情感倾向性,可以帮助我们更好的理解评论人的态度和立场,为面向商家的产品反馈,面向政府管理的信息过滤、民意分析等提供信息技术的支持。因此,文本的情感倾向性分析成为解决这一问题的关键技术,具有广泛的应用前景。采用机器自动处理的手段对网络评论进行情感分析判别,是当前互联网智能信息处理的一个研究热点,具有较大的实用价值。但由于网络评论文本具有的特殊性,原有的文本情感分类方法不能获得较为理想的效果。其主要原因在于:(1)网络评论文本形式不规范,包含大量网络用语,不能被正确分词;(2)评论中包含对客观事实的陈述,这些信息与情感分类无关,会对最终的分类结果造成影响;(3)单纯地提取评论中的主观句,会丢失掉不以主观形式出现但存在褒贬倾向性的信息。因此,如何有效地提取网络评论文本中的情感信息,是提高情感分类效果的关键。针对以上存在的问题,本文提出了一种将情感组块与机器学习相结合的方法,对网络评论文本的情感倾向性分析问题进行了深入的研究,并将SVM算法应用到情感倾向性分析系统中,在不同规模的军事评论样本集下进行了实验。主要的研究工作有:(1)针对网络评论中存在大量的形式不规范的网络用语,导致原分词软件无法识别的问题,建立了网络用语词典,对评论文档中出现的如拼音、缩写等不规范词语进行有效还原,从而保证了分词的准确性,也使得一些包含作者情感的信息不被丢失,进而提高分类的正确率;(2)根据语料特征,建立了领域情感词典,实现对原评论中的非情感信息进行有效过滤,降低了无关信息对分类效果的影响;(3)提出情感组块的概念,将那些具有褒贬倾向性的表达形式定义并标记为情感组块,作为情感特征提取,从而保证了情感信息能得到有效保留;(4)将情感组块与支持向量机相结合,在不同规模的语料上先后进行多组实验,并将实验结果与用KNN分类器进行分类的结果相比较。实验证明,在较大规模的训练样本集下,SVM分类器的分类效果优于KNN分类器。这表明了使用本方法可以有效提高军事评论情感分类的正确率。(5)设计并实现了一个针对于军事评论领域的网络文本情感倾向性分析系统模型。使用这个系统模型可以判断军事评论是正面的还是反面的,查看分类结果,并对分类结果进行性能评估。该系统通过了测试,具有一定的正确率和可行性。