基于微博平台的中文情感分析技术的研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:scg5252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展与WEB2.0时代的到来,微博、微信等社交网络平台在人们生活中占有越来越重要的位置。互联网上的博文数量呈爆炸式增长、海量的博文信息中包含着用户的情感、观点,可为政府机构舆情分析、企业市场行为策略制定、消费者购买行为分析等方面提供决策数据支持。对微博文本进行情感分析,发掘其中潜藏的巨大价值具有重要的商业及社会意义。基于微博文本的情感分析的主要工作是判别微博文本的情感倾向性。本文首先构建了微博情感分析用情感词典,基础情感词典部分采用对现有的中文情感词典NTUSD和HowNet两者的综合,随后通过整理微博语料中的表情符号、新词与网络流行词语等使用一种PMI与word2vec综合的方法对情感词典进行了扩充,得到情感词典。然后从网络上获取微博文本语料数据与第六届中文倾向性分析评测(COAE2014)评测语料数据并对其进行分词、停用词处理等预处理,之后采用人工标注与现有已标注情感倾向语料文本结合的方式构建初始训练集。本文阐述了一种综合文本情感分类方法,该方法克服了基于情感词典的分类方法过度依赖情感词典,对于未登录词处理能力欠佳的问题,以及基于机器学习的分类方法构建特征向量时丢失文本中的程度副词、句型句式关系等情感分析相关要素的缺点。本文的分类方法在构建训练用特征向量空间的过程中将传统支持向量机分类方法中丢弃的信息予以保留,融入到特征向量之中,因其在分类阶段使用基于机器学习的算法,在一定程度上保留了对情感词典中未登录词的处理能力最后,通过微博文本语料对本文的分类方法进行了验证,结果表明较传统的情感分析方法表现出更高的准确率。
其他文献
《寒风吹彻》一文篇幅较长,共有43个自然节。文章叙事看起来很杂乱,语言苍凉含蓄,深沉内敛,有许多寓意丰富的语句读起来比较吃力。这篇文章选入苏教版《现代散文选读》,安排
近年来建筑行业安全事故频发,究其原因主要是建筑工人的不安全行为。通过对文献的整理及总结,首先分析建筑工人不安全行为的形成机制,然后从三方面,即人、环境、机械,对其认
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:建立大孔树脂分离纯化枳椇叶子中总黄酮的工艺。方法:通过比较9种大孔树脂对枳椇叶提取液的静态吸附率和解析率,优选一种,进一步考察其分离枳椇叶总黄酮的吸附性能和洗
为推动政府职能转变、促进政务公开、提升行政效能,潍坊市规划局积极运用信息化技术,结合其城乡规划审批服务需求,建设了规划网上报建与审批系统。阐述了系统总体框架及主要
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文探讨世界各地的龟文化,特别研究了中国古代龟文化产生的原因,是因为龟有天、地、人之象,上古轩辕黄帝族以龟为图腾,易卦起源于龟腹甲上的构纹,龟长寿,有顽强的生命力,因
卵巢癌是妇科3大肿瘤之一,发病率逐年上升。尽管目前对卵巢癌的治疗方法已取得长足进步,但是患者生存率仍较低,寻求更加高效低不良反应的治疗方法仍是临床医师及科研人员不懈
随着宽带互联网特别是移动互联网的发展以及“三网融合”的快速推进,不能单纯靠广电网络,必须开通个人宽带、企业宽带专线、企业网(酒店、药店连锁、餐馆连锁)、金融网(银行