论文部分内容阅读
近年来社交网络飞速发展,越来越多的人通过微博来进行信息交换和分享。由于微博具有短小精悍,使用便捷,传播迅速等特点,使得其广受欢迎。用户乐于在微博上分享自己的观点或体验,这使得微博中存在着大量具有情感倾向的用户评论信息。随着这样的评论信息迅速膨胀,仅靠人工的方法难以应对海量信息的处理和分析。因此,如何利用计算机技术对微博中的评论数据进行有效的加工处理和分析挖掘己成为当前热门研究问题,情感对象识别研究就是用于解决这个问题的一种非常有效的途径。本文主要是针对中文微博文本进行情感对象识别研究,然而对非结构化的文本进行情感对象识别本身就是一个困难的问题,现有研究往往存在一些不足之处。一方面,微博和传统文本是有区别的,其表达简短且具有较大的自由性,通常不是规范的中文语言表达,现有的基础中文文本处理工具并不能很好的适用于微博这种特殊的文本,这为情感对象识别任务提高了难度。为了解决这个问题,本文提出对微博文本进行了规范化处理并构建了包括网络用语词典、表情词典、情感词典和否定词词典等在内的多个词典,通过这种方式不但能够改善现有文本处理工具对微博进行分词和句法依赖解析,而且还能够更加有效地结合上下文信息进行特征提取。另一方面,针对文本中显性出现的情感对象,目前一些方法已经能够有效的识别,但是面对隐性的情感对象时还是显得力不从心。因此,当情感对象直接出现在文本中时,本文采用条件随机场模型和分类模型相融合的方式进行情感对象识别;而对于情感对象并不出现在文本中时,则尝试对蕴含的情感对象进行抽象化处理,提出了一种包含隐节点的条件随机场改进模型用于识别隐藏情感对象。本课题研究的核心思想是将情感对象识别问题看成序列标记问题,利用条件随机场模型在句子级的微博文本上进行对象标注,模型综合利用多种特征改善识别准确度。在实验部分,本文在公开评测数据集和自建数据集两个数据集上进行了实验验证和评估,结果表明模型不但能够较好识别出微博中显性的情感对象,还能够识别出隐藏情感对象。