论文部分内容阅读
随着论坛、博客和微博等网络媒体的快速发展,表达人们情感、态度和观点的主观性文本大量出现。文本情感分析,也称意见挖掘,就是对这些主观性信息进行有效地分析和挖掘,并进一步进行归纳和推理的技术。近几年,文本情感分析的研究已经涉及到产品评论、影视评论、舆情分析和信息预测等多个领域,应用初显成效,它已成为自然语言处理领域中新的研究热点之一。 文本情感分析以计算语言学、机器学习、数据挖掘和信息检索等理论为研究基础,具有重要的研究价值。从研究任务上,它可分为情感信息分类、情感信息抽取和情感信息应用三个方面;从研究粒度上,可分为词语级、短语级、句子级和篇章级的情感分析。其中基于不同粒度的情感信息分类和情感信息抽取属于情感分析的基础研究,而进一步地与信息检索、文本文摘和问答系统等应用系统相结合的情感分析则属于是情感分析的应用研究。 本文研究了情感信息分类、情感信息抽取和情感信息应用三个方面的关键问题,采用了分类、聚类和排序等统计学习方法,并利用多种语言学特征进行了深入研究,整体上使情感分析的效果获得了较大提升。本文研究的具体内容包括: (1)提出了一种基于可信度分析的情感极性分类方法。情感信息分类主要包括主客观分类和情感极性分类,本文采用组合分类器方法对情感极性分类问题进行了研究。该组合分类器包括支持向量机、类中心和K近邻三种分类方法,采用基于可信度分析的分类器融合策略对情感极性进行判别,有效提高了情感极性分类的精度和效率。在酒店评论语料的极性分类实验中精确率、召回率指标均高于三种单分类器的分类结果,在第一届中文倾向性评测中,基于可信度分析的方法在相关任务的两项评价指标上获得最好结果。 (2)提出了基于浅层句法特征和启发式位置特征的评价对象抽取方法。在基于统计学习的评价对象抽取方法中,特征选择对模型的影响是非常重要的。本文在传统的词法特征的基础上增加了浅层句法特征和启发式位置特征,并将该特征集合应用在条件随机域模型和最大熵模型上,通过实验对两种特征的效果进行验证。实验证明,浅层句法特征可以有效地提高短语级评价对象的识别能力,启发式的评价词位置特征可以有效地提高短评论中评价对象的识别能力。通过实验结果对比发现,将浅层句法特征和启发式位置特征应用在条件随机域模型上,其评价对象抽取结果的 F值高于第一届文本倾向性评测相关任务的最好结果。 (3)提出了一种基于指定类中心聚类的评价对象抽取方法。由于有监督方法在实际应用中领域移植性较差,所以本文选择无监督方法进行评价对象抽取研究。采用基于聚类的方法进行评价对象抽取可以将相关的候选评价对象先进行归类,然后在各子类中逐一判别,这可以有效降低判别的复杂性。由于是针对评价对象进行聚类,所以引入相关领域