论文部分内容阅读
近年来互联网技术依然保持着高速的发展状态,涌现了大量的互联网应用,包括社交网络应用。互联网上时刻产生着大量用户参与的人物、产品、事件等相关的社交媒体数据。情感分析技术用于挖掘文本中的主观情感信息,对微博为代表的社交媒体的情感分析可以挖掘其中潜在的商业与社会价值,在产品信息反馈、商品推荐算法、舆情监控、热点事件跟踪等方面有重要应用。本文主要研究面向社交媒体的情感分类问题,前两章对该问题的研究现状和基本技术进行了详细的介绍。然后,从不同的角度针对现有研究的不足之处,在第三至五章分别提出了本文的情感分类方法。(1)提出了一种机器学习与语义规则融合的情感分类方法。本文针对中文微博特点,在传统的基于词典分类方法上添加了多项语义规则,提高了对样本情感倾向度衡量的精准度。然后提出了特征嵌入式的融合方法,即将提取的词典规则特征转化扩展以后加入基本特征模板,该融合方式在情感分析粒度和特征表示两个方面优于一般的融合方法。实验证明该方法取得了较大的性能提升,在2015年的中文倾向性评测(COAE2015)的微博情感分类任务中,取得了限定资源模式下的第一名。(2)本文面向社交媒体数据,借助自然标注的方法帮助解决情感分类问题。在第4章,本文以神经网络模型词典构建方法为基础,通过加入语义规则和设置样本权重的方式对其进行了改进。在与人工标注词典和其他词典学习算法的比较中,该方法学习出的词典表现最优。使用该词典在2016年的中文倾向性评测(COAE2016)的情感词抽取任务中,取得了第一名的成绩。(3)本文提出在自然标注数据上进行集成学习提高分类性能。首先实验验证了Bagging集成模型相比于单一模型在稳定性和泛化能力上的优越性。在此基础上,提出Stacking集成学习模型,该模型通过对多个基分类器预测结果的二次学习,以及原有的词典特征,实现了自然标注数据和人工标注数据的全面结合。实验证明,该模型的分类性能高于仅加入词典特征的结合方式。