论文部分内容阅读
近几年随着互联网技术的迅猛发展,网络成为消费者发表评论、意见等信息的重要平台。虽然海量的信息资源可以为我们带来极大的便利,但同时纷乱庞杂的信息也会令我们不知所措。如何从海量资源中快速有效收集分析归纳这些有用意见信息成为当前研究的重要课题。意见挖掘,也称情感倾向性分析,目的是自动提取文本中主观性信息并分析文字中包含的倾向性情感。意见挖掘是一个新兴的研究领域,涉及到自然语言处理、信息抽取、信息过滤、自动文本分类、文本挖掘等领域。意见挖掘的应用前景十分可观,应用于国计民生的众多领域,如:电子商务中的推荐系统,信息安全中的过滤系统等。本文构建了一个基于特定领域的意见挖掘系统,对意见挖掘的关键任务进行了研究分析,主要完成了各种词典的构建、中文主观性信息的提取、主题的抽取、情感的分析等研究工作。词典的构建是意见挖掘的一个基础性的工作。我们在已有的中英文极性词典的基础上构建了中文基础极性词典,同时还构建了领域词典、领域极性词典、动态极性词典、网络极性词典、否定词典、程度副词词典等。在基础极性词典中,我们不仅给出词语的情感倾向,同时还标注了词语的情感强度。这些词典的构建为接下来的一些意见挖掘的任务奠定了基础。中文主观性信息的提取也是意见挖掘的一个重要的基础性工作。我们分别采用主观线索和主观模式的方法提取主观句子,最后采用两者相结合的方法来提取主观句子。并针对相同测试语料,对这三种方法进行对比。实验表明,我们采用的主观线索与主观模式相结合的方法是合理有效的。主题抽取是意见挖掘的关键任务,我们采取了两种方法进行研究――基于句法分析的主题抽取和基于评价词的主题抽取,并分析了两种方法各自的优缺点。最后我们还研究分析了隐式主题的识别,并通过实验证明加入隐式主题识别之后整个主题识别模块的准确率和召回率都得到了提高。情感分析也是意见挖掘的关键任务,在分析了主题的情感倾向之后,对修饰主题的情感词的“上下文极性强度”进行了研究。设计短语模式来计算情感词的“上下文极性强度”,并通过实验证明该方法是有效可行的。最后我们实现了基于特定领域意见挖掘原型系统,并对提出了今后的研究方向。