论文部分内容阅读
随着Internet的迅猛发展,以网络为传播媒介的文本信息越来越受到企事业单位和个人的关注。网络信息可为政府管理部门了解民众意向、制定政策和改善服务提供重要依据;通过某个事件的相关报道与评论,不仅可以了解事件本身,还可以了解人们对事件的立场、观点和看法;很多企业通过在自己的网站上开辟产品评论专栏,进行市场调查与分析,了解用户对产品的意见和建议,对产品在线跟踪,以改进产品性能和售后服务;消费者也可以利用网上关于各种产品的评论来指导消费行为。然而,网上每天都有大量的新评论出现,对于这些评论,仅靠人工进行跟踪和分析显然是行不通的,人们开始关注并研究评论文本的主观性情感倾向分析。本文针对网上的评论文本进行了文本情感倾向分类研究,主要内容如下:(1)将文本主题分类的关键技术应用于文本情感倾向分类。本文采用了信息增益、互信息和x~2统计三种特征选择方法以及布尔和频率两种概率估算方法,对文本情感倾向分类进行了实验研究,选择支持向量机技术构造分类器。测试结果表明,这些技术用于文本情感倾向分类是可行的,但分类效果不及文本主题分类。其原因是,文本情感倾向分类问题比文本主题分类问题在特征选择上更复杂,仅仅基于类别区分能力选择特征是不够的。(2)提出了基于同义词情感倾向强度的词汇情感倾向强度度量方法。词汇的同义词与词汇本身具有相同或相近的情感倾向,一个词的同义词与基准词的同现信息一定程度上强化了该词汇的情感倾向。为了定量刻画这种语言现象,本文提出了基于同义词同现信息的词汇情感倾向强度度量方法。实验表明,该方法优于基于词汇的情感倾向强度度量方法。(3)提出基于类别频次差的受限基准词选择方法。词汇的情感倾向分类效果很大程度上依赖于基准词的选择。本文提出了基于类别频次差的受限于语料库的基准词选择方法。实验结果表明该方法优于通用基准词选择方法。(4)提出了基于最大熵模型的组合项情感倾向判别方法。组合项是一类重要的文本情感倾向分类特征,本文提出了基于最大熵模型的词汇组合项情感倾向分类方法。(5)研究了混合候选特征对文本情感倾向分类的影响。采用不同的混合候选特征,对同一语料情感倾向分类进行比较研究,结果表明,候选特征的构成成分越多,分类结果越好。