【摘 要】
:
随着互联网的兴起,带动了以微博为主的社交网络平台的快速发展,微博评论文本呈指数型增长,从海量评论文本中挖掘的情感信息在商业策划与社会应用中的价值越来越大,与此同时,
论文部分内容阅读
随着互联网的兴起,带动了以微博为主的社交网络平台的快速发展,微博评论文本呈指数型增长,从海量评论文本中挖掘的情感信息在商业策划与社会应用中的价值越来越大,与此同时,依托计算机的无监督微博情感分析技术应运而生。与传统文本情感分析不同的是,微博评论文本在情感表达上有其独特之处,微博评论有一定的字数限制,短文本评论居多且数量规模大,易出现文本语法不规范、频现网络新词等现象。故本文针对微博文本以上特点开展研究,构建一个面向微博文本的领域情感词典,提出一种基于BTM主题模型的无监督微博情感分类模型(W-BSTM)。本文所构建的微博文本领域情感词典包含基础情感词典、网络用语情感词典、表情符号情感词典和领域扩建情感词典四部分。在现有情感词典基础上构建了一个二分类基础情感词典;通过观察与整理构建了针对文本中网络词语和表情符号的情感词典;使用基于HowNet语义计算方法建立微博领域的扩展词典,收集那些在传统文本中无情感倾向在微博文本表述中含情感倾向的词。W-BSTM模型是在BTM模型的基础上增加情感层,融合权重模型,形成无监督的“主题-情感-词汇”三层贝叶斯主题情感混合模型,在保留BTM模型原有优越性的同时,综合考虑每个特征词在情感分类中的重要程度,提取文本情感信息,并通过实验将该模型与其他主题情感分类模型对比,证明了该模型在短文本情感分类上有着较好的效果。最后使用微博爬虫技术获取新浪微博评论文本,将本文构建的情感词典和W-BSTM模型实际运用于微博评论情感分析中,验证本文所提出的基于主题情感混合模型的无监督微博情感分类方法的有效性与可行性。
其他文献
目的:建立同时测定人血浆中利培酮及9.羟基利培酮浓度的方法。方法:血浆样品经液.液萃取后,以AF2672为内标,采用液相色谱.串联质谱(LC-MS/MS)法测定。色谱柱为Xtimate^TMC18,流动相为乙
运用密度泛函B3LYP方法,在6-311G(d,p)基组水平上对平面型1-氯蒽醌二聚体进行构型优化,得到了6种稳定构型.在MP2/6-311+G(d,p)水平上计算了这6种构型分子的能量,并进行了基组
为探求楸树不同无性系生物量分配和根系形态的差异,2011年3—8月在甘肃省天水市小陇山林科所,以2年生楸树无性系1-4、7080和015-1组培苗为试验材料,设置了CK、6、10、14 g尿
我国是一个严重缺水的国家,在近几年里,灌溉用水量占据全国总供水量的65%左右。而目前由于农业用水效率不高,造成水资源的日益短缺,通过节水灌溉发展精准农业是现代农业的当务之急。土壤水分传感器能够高效地反映出土壤中的水分变化情况,有益于节水灌溉的实施。目前市面上的高精度土壤水分传感器普遍存在价格较高的问题,无法达到大范围布设以获取水分信息的目的,同时低成本的水分传感器大多使用低频电容测量的方法,受到土
随着饮食结构的精细化以及生活水平的不断提高,人们对大米的外观品质、适口性及营养品质的要求都不断提高。过度碾精已经造成了很多营养成分的浪费和损失,同时肥料运筹对稻米
经济全球化及知识化的纵深发展,使得以专利保护为核心的制度构建日益成为影响跨国企业市场进入决策的重要因素。利用跨国数据实证研究了东道国的专利保护强度对跨国企业市场
在全面提高开放型经济水平的背景下,需要深入分析对外贸易规模、外贸经济布局对环境影响的综合效应,全面探索对外贸易的环境效应规律。理论分析主要考察了对外贸易发展对环境
<正>周记,常常被语文老师当作提高学生写作水平的练笔形式。殊不知,它在班级管理尤其是转变落后班级方面也可大显身手。班主任如果能利用好周记,引导学生畅谈内心真实感受,便
通过110个主要国家的SITC三位码贸易数据计算了我国2002—2014年26个制造业细分行业的出口复杂度,以此衡量我国贸易结构转型情况,检验了制造业要素结构动态变化对贸易结构的
当今社会企业与企业的竞争是人才的竞争,企业的战略发展离不开人才。培训是企业人力资源管理的一个重要的方面,提高员工的工作绩效可以有效的通过培训来实现,从而企业效益可以有效提高。90后员工作为一个新生代群体,他们对培训的满意度能够在一定程度上反应当下企业战略策略和培训管理过程中存在的问题,现有的传统培训方式不能完全适用于新生代90后员工,因此对90后员工的有效培训显得十分重要。本研究将90后作为研究对