论文部分内容阅读
随着互联网的飞速发展,以网上论坛、微博等形式为主的带有个人情感色彩的言论信息迅速膨胀,这些言论信息多数是人们对网购商品、影视作品、公众人物、热点事件等发表的评论,蕴含着巨大的商业价值和社会价值,分析这些信息具有很大的现实意义。文本情感分析是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及计算机语言学、机器学习、信息检索等众多领域,具有广泛的应用价值。目前针对中文的情感分析仍处于起步阶段,各项技术尚未成熟,情感分析系统由实验走向实用,还有很长的路要走。本文以微博消息为研究对象,针对句子级中文短文本的情感倾向分析进行研究,主要内容涉及以下三个方面。首先,构建了多分类情感词典。通过对情感词的极性分析,提出将情感词分为静态情感词、动态情感词、网络热点词和情感短语四类,并对动态情感词的极性判别方式进行研究。其次,提出了基于规则过滤和机器学习的观点句识别方法。根据微博语言特点,制定观点句和非观点句的过滤规则,并设计了基于上下文滑动窗口的观点句规则匹配算法。然后针对机器学习分类方法中观点句的特征提取方式进行了研究,对观点句的特征选取方式进行了创新,不但抽取了传统信息处理方法中的普通文本特征,还针对微博的自身特点提取了相应的特征。最后,提出了多策略观点句极性判别方法。根据不同的观点句类型,分别采用基于情感词典、基于机器学习和基于依存句法分析三种方法对观点句的情感极性进行判别。其中研究了基于机器学习情感分类方法中褒义句和贬义句的特征选取,提出了基于依存句法分析的情感依存关系对抽取方法和句子情感极性判别方法。实验以提出的情感分析方法为基础,借助中科院分词工具、哈工大依存句法分析工具以及LibSVM工具包,共同构建了文本情感分析处理系统,并以NLP&CC2012评测语料作为测试数据进行了句子级短文本的情感分析。实验结果表明,本文提出的短文本情感分析方法在准确率和召回率方面均比改进前有较大提高。