论文部分内容阅读
随着互联网技术的迅猛发展,网络己成为人们获取信息的重要来源,越来越多的网民通过各种渠道发表对社会事件、公众人物、产品等的意见和评论。通过分析和挖掘这些海量的评论资源,我们可以识别用户评论的情感倾向性,从而更好的了解用户的消费习惯,判断人们对于热点话题的态度以及分析舆情的趋势走向,情感分类问题的研究不论对于政府、企业还是个人都具有十分重要的意义。本文对中文网络评论情感分类与观点抽取技术进行研究,包括:词汇相似度计算方法比较研究、基于机器学习的情感分类技术比较研究、基于语义和机器学习的二阶段情感分类研究、基于语义的观点抽取方法研究,主要研究内容如下:(1)在分析传统的词汇相似度算法的基础上提出利用一种基于知网改进的词汇相似度算法对情感词进行倾向性计算,该方法能很好的识别未登录词,从而极大提高了词汇相似度计算的准确性,最终能够计算用户情感词的情感极值以及划分属性特征词的属性类别。(2)在机器学习方法中,对于NB、KNN、SVM这三种分类算法,分别进行改变单一变量的实验,包括:改变特征选择方法、改变权重计算方法和改变特征提取个数,从而得到每种分类算法关于特征选择、权重计算和特征提取个数的最佳分类方案。(3)为了克服语义词典的不完备性以及机器学习方法需要庞大的人工标注训练集的问题,本文提出了一种基于二阶段的情感分类方法。对于测试数据集,先利用基于语义的方法对全部文本进行情感打分、排名,通过设置文档筛选比,将情感倾向明显的文本作为第二阶段已划分类别的训练集,将情感倾向不明显的文本作为第二阶段未划分类别的测试集,然后再用机器学习的方法,利用每种分类算法的最佳分类方案进行实验,结果证明了基于二阶段情感分类方法的有效性。(4)利用基于语义的方法对评论文本进行情感分类与观点抽取。首先,构建基础情感词典、用户词典、程度副词词典、否定词词典、动态情感词典等语义词典,然后借助词汇相似度算法,构建用户情感词典和属性特征词典,根据各个词之间的关系以及语法结构构建一般的语义规则及其它特殊处理规则。对于测试数据集,先计算短语的情感倾向值,再通过累加求和的方式判断整个评论的最终情感倾向以及各观点属性的情感倾向。实验证明该方法具有较高的分类精度,抽取的结果也与实际情况相符合,具有很大的应用价值。