社交媒体文本情感分析

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zoujing0505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网技术依然保持着高速的发展状态,涌现了大量的互联网应用,包括社交网络应用。互联网上时刻产生着大量用户参与的人物、产品、事件等相关的社交媒体数据。情感分析技术用于挖掘文本中的主观情感信息,对微博为代表的社交媒体的情感分析可以挖掘其中潜在的商业与社会价值,在产品信息反馈、商品推荐算法、舆情监控、热点事件跟踪等方面有重要应用。本文主要研究面向社交媒体的情感分类问题,前两章对该问题的研究现状和基本技术进行了详细的介绍。然后,从不同的角度针对现有研究的不足之处,在第三至五章分别提出了本文的情感分类方法。(1)提出了一种机器学习与语义规则融合的情感分类方法。本文针对中文微博特点,在传统的基于词典分类方法上添加了多项语义规则,提高了对样本情感倾向度衡量的精准度。然后提出了特征嵌入式的融合方法,即将提取的词典规则特征转化扩展以后加入基本特征模板,该融合方式在情感分析粒度和特征表示两个方面优于一般的融合方法。实验证明该方法取得了较大的性能提升,在2015年的中文倾向性评测(COAE2015)的微博情感分类任务中,取得了限定资源模式下的第一名。(2)本文面向社交媒体数据,借助自然标注的方法帮助解决情感分类问题。在第4章,本文以神经网络模型词典构建方法为基础,通过加入语义规则和设置样本权重的方式对其进行了改进。在与人工标注词典和其他词典学习算法的比较中,该方法学习出的词典表现最优。使用该词典在2016年的中文倾向性评测(COAE2016)的情感词抽取任务中,取得了第一名的成绩。(3)本文提出在自然标注数据上进行集成学习提高分类性能。首先实验验证了Bagging集成模型相比于单一模型在稳定性和泛化能力上的优越性。在此基础上,提出Stacking集成学习模型,该模型通过对多个基分类器预测结果的二次学习,以及原有的词典特征,实现了自然标注数据和人工标注数据的全面结合。实验证明,该模型的分类性能高于仅加入词典特征的结合方式。
其他文献
美国南北战争在很大程度上根源于南北双方不同的经济形态.以及对待黑人奴隶的态度上的差异。那么“北美的奴隶制缘何出现并得以发展壮大”这个问题在历史上所述颇多。但也是众
随着新课改思想在初中学科教学活动中的有效渗透,如何在新课标要求下开展行之有效的教学活动,已经成为广大教师进行课堂教学改革的重要内容和任务。众所周知,数学学科每一章节知
函数的最值问题是职业中专数学教学中的重要内容,也是高考的热点问题之一。它具有较强的灵活性和技巧性,在解决实际问题中有着广泛的应用。其解法也因题而异,通常采用配方法、判
药物治疗是最有效的疾病干预手段之一,但是只有合理的使用药物才能达到治疗疾病、维护健康的目的[1]。2002年世界卫生组织(World Health Organization,WHO)报告指出,全球有1/
本文针对4Cs理论与网络营销的理论特点,以企业和消费者相结合的角度,在以4Cs理论为指导的前提下,阐述了网络营销对企业营销策略的影响,为开展网络营销的企业提供了基4Cs营销理论
目的分析研究乙胺碘呋酮对心肌病合并心功能不全的治疗效果及不良反应。方法选择我院2012年1月至2013年2月诊治的心肌病合并心功能不全的患者40例,在常规治疗的基础上(心电监护
目的 探讨无创通气联合盐酸氨溴索雾化治疗慢性阻塞性肺疾病合并呼吸衰竭的临床效果.方法 对我院收治的慢性阻塞性肺疾病合并呼吸衰竭患者76例,按治疗方法的不同进行分组,研