论文部分内容阅读
随着互联网的快速发展,电商平台及社交网络上产生了海量的文本数据,数据背后蕴含着丰富的使用价值,对这些数据进行采集、分析整理与价值挖掘,将产生巨大的经济利益,对这些数据进行情感计算研究具有重大意义。情感计算是分析文本情感的主要技术之一,包括情感对象识别、情感信息检索、情感信息分类、情感推理等任务。从含有情感信息的文本数据中挖掘作者所表达的观点或情感倾向,能够辅助观察者对相关信息进行推断与决策。尽管近年来情感计算领域出现了一系列颇具价值的研究成果,但依然面临诸多挑战,其中包括:细粒度的情感对象识别问题,即如何将对象识别与情感倾向判别相结合;隐性对象识别问题,即如何识别未在文本中出现的对象;数据分布不平衡会导致少数类样本被错误分类的问题;神经网络模型参数训练所需标注语料不足导致模型性能低的问题等。本文以文本数据为研究对象,结合情感计算的相关任务,分别从以下几个方面进行深入研究,完成的工作主要包括:1、文本数据的情感对象识别问题。针对文本数据的细粒度情感对象识别问题,提出一种构造双层条件随机场的方法;把情感对象的识别当作词语级别的序列标记问题,通过对序列中不同位置的词语标记不同的标签,借助势函数建立起不同标记序列间的信息交互,将相互独立、没有信息交互的两条标记序列联系到一起,构建双层条件随机场模型,实现识别细粒度情感对象的目的,实验结果表明提出的方法能够满足文本数据在细粒度上的情感对象识别需求。针对隐性情感对象识别问题,提出一种在条件随机场模型上添加全局节点的方法;将隐性对象转换为抽象目标,并将其当成全局节点添加到条件随机场模型中,通过实验证明全局条件随机场(GLCRF)有较好的识别效果。2、文本数据的情感分类问题。针对主题偏向严重的数据分布不平衡问题,提出一种融合Affinity Propogation算法、Word2vec技术和条件随机场模型的方法。采用Affinity Propagation算法来减少训练集中的多数类样本的数量,使训练集达到相对平衡,用Word2vec扩充词语的情感信息,然后使用融合复杂特征的条件随机场模型进行训练预测,实验结果表明所提方法在文本情感分析任务上有较好的效果。针对文本数据标注语料不足问题,提出一种在循环神经网络中嵌入逻辑规则的方法。从结构化知识中提取先验知识并分解成一组逻辑规则,然后将逻辑规则通过反馈环屏蔽矩阵嵌入到循环神经网络中,实验结果表明嵌入逻辑规则的循环神经网络在语料不足的情况下性能比循环神经网络更好。3、文本数据的情感推理问题。针对文本情感对象间关系不明确问题,提出一种基于路径排序算法的情感推理方法。通过使用条件随机场模型对文本数据进行细粒度情感对象识别,使用关系抽取将情感对象融合到NELL知识库中,采用NELL知识库的格式和路径排序算法模型,给实体间的路径进行标记分数并排序,推理出情感对象间的关系或根据关系推理出情感对象。综上所述,面向互联网平台所产生的海量文本数据,针对细粒度情感对象识别、隐性情感对象识别、不平衡数据集、标注数据不足、情感推理等问题,提出相应的方法进行情感计算研究,并通过相关实验证明所提方法的有效性。