论文部分内容阅读
随着Web2.0的迅猛发展,用户在互联网上的行为发生了巨大的改变,越来越多的人们在互联网上表达个人观点,由被动的接受信息转为参与创建互联网资源,由此互联网信息量的爆炸式剧增使得单纯依靠人工的方法收集和整理信息已远不能满足越来越多的需求。因此,如何从海量的互联网信息中自动挖掘和整理主观性信息尤为重要,情感分析任务应运而生。情感分析是自然语言处理领域的一个重要话题,旨在对无结构的主观性文本进行分析、处理和归纳,最终形成方便机器理解和用户使用的结构化数据。情感分析是一个多学科综合的研究领域,内容涉及多层语言分析技术,按照处理文本粒度的不同可以将情感分析分为篇章级、句子级和词语级。情感词是情感分析的重要组成部分,很多上层情感分析任务如篇章级、句子级和评价搭配识别等都需要情感词典的支持,构建高质量的情感词典对情感分析尤为重要。而由于不同领域的情感表达方式不同,甚至有可能同一个词语在不同领域表达相反的极性,很难构建一个复杂的情感词典满足所有要求。本文提出了一种基于半指导方法的情感词典构建框架,算法流程共包括3个步骤,分别是情感词种子的获取、构建语义图和计算情感分值。其中情感词种子通过大规模用户评论数据进行自动获取;语义图的构建依赖于外部的语义资源,如同义词词林;我们分别尝试了Topic-Sensitive PageRank和标签传播算法计算情感分值。此外,本文还尝试结合有指导学习方法和随机最小割算法进行情感词语极性识别,实验结果表明,随机最小割算法可以有效提高情感极性识别效果。在此基础上,本文在提出了基于统计分析的领域情感分析词典构建方法,主要流程包含领域评价对象抽取、领域情感词语抽取和情感词语的极性识别。其中领域评价对象抽取模块我们使用了统计分析的方法;情感词语抽取模块以情感路径的方式表达情感词语和领域评价对象之间的关系,并使用句法路径构建情感路径模版;最后对情感词语进行极性识别。最后,本文设计并实现了领域自适应的情感分析词典抽取平台SWMine,主要包括领域评价对象抽取、领域情感词语抽取和情感词语极性识别,并设计了数据的表示形式以及可视化样例,可以为商家和用户提供更好地服务。