论文部分内容阅读
随着互联网的飞速发展,其上的信息越来越丰富,成为人们获取所需信息的主要手段。人们可以将自己的言论信息通过互联网展现出来,比如存在于互联网中的各大网站论坛。人们在挑选电子产品的时候,可以通过查阅相关产品论坛的用户评论,间接了解到相关产品的口碑。然而,这样的原始信息存在明显的缺点:信息庞杂,混沌。人们通过简单逐条的去查阅用户评论,得到相关产品的口碑信息,无疑是一项繁琐而耗时的任务。如果能够将这些信息进行有效的汇总,必将提高人们的获取信息的效率。基于这样的需求,本文构建了一个面向手机产品评论的意见挖掘系统,主要的研究内容包括以下几个方面:第一、本文介绍了系统的有用评论分类模块。有用评论的分类模块是整个意见挖掘系统的首要一步,因为原始的用户评论良莠不齐,无用的评论对于系统的后续模块不仅没用,而且会有副作用产生。基于有用评论的定义,本文采用支持向量机分类器进行分类,并引入产品特征词和情感词共现的特征。实验证明,上述共现特征的引入可以提高分类的效果。第二、本文详细介绍了系统的情感块识别及情感分析模块。该模块是整个系统的核心模块,其任务是识别评论中带有情感倾向的短语。本文将其转化为一个词序列标注问题,使用引入模板特征的条件随机域模型进行情感块的识别并判断它的情感极性。实验证明,使用条件随机域模型不仅可以识别传统方法所能识别的包含情感词的情感块,还可以识别很多口语化的情感块,这些情感块可能不包含情感词。另外,引入模板特征可以进一步提高识别的效果。第三、本文介绍了系统的产品口碑汇总模块。本模块主要分为两步:产品特征词-情感块对的挖掘,产品口碑汇总。产品特征词-情感块对的挖掘采用的方法是:对于某个情感块,将离其最近的产品特征词作为与之配对的产品特征词。产品特征词-情感块对挖掘后,系统根据不同的产品型号进行分组,对每个产品型号进行口碑汇总。