论文部分内容阅读
本文针对自动分析中文短文本的情感倾向问题,以电商网站上在线商品评论文本为研究对象,主要进行了以下三方面的研究,即有效文本特征的提取,文本中某一词语的修饰词的提取,以及分类方法的选择。对于有效文本特征提取,本文提出了三类有效的文本特征,将否定修饰词、程度修饰词与情感词进行搭配组合,组合为不同的文本特征,将修饰词+情感词作为文本的基本特征单元进行提取,按照词语的词性进行提取;在构造领域词典以及提取本文所提出的基本特征单元时,需要提取某些词的修饰词,最常用的解决方法是利用滑动窗口方法,该方法不能准确无误、不遗不漏的提取出任意词语的修饰词,本文将依存句法分析方法应用到修饰词的提取过程中,该方法是在句法结构分析的基础上,得出句子中各词语之间的依存关系,从而能够准确的提取出任意词语的所有修饰词;对于分类方法的选择,本文主要利用两种方法实现分类,基于机器学习的分类方法,用SVM分类器和SVMperf分类器实现分类,基于语料和背景知识相结合的分类方法,该方法是一种基于词典和基于机器学习相结合的分类方法,有效解决了在单纯的基于词典的分类方法中对领域词典的依赖性,有效解决了在单纯的基于有监督的机器学习的分类方法中对标注的训练数据量的要求。最后,对本文所提出的特征提取方法、所使用的分类方法做了实验,取得了较好的效果。