面向中文微博情感分析的多特征融合方法研究

来源 :广东工业大学 | 被引量 : 6次 | 上传用户:chenww275245962
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着微博注册用户的快速增长,微博平台累积的用户数据成几何倍增加,怎样有效的利用这些海量的数据,发掘数据中有价值的信息,成为了领域内的研宄热点。其中,微博情感分析是一个比较热门的研究方向,它在舆情监控、热点追踪,以及用户满意度调查等方面都有广泛的应用。但由于微博文本相较传统的长文本来说信息量少、格式不规范、口语话严重、含有大量的噪声等特点,微博情感分类研究的效果并不理想。除此之外由于中文语言的特殊性,对中文微博的情感分析准确率更是不能让人满意。针对这一情况,本文提出了融合多种特征进行中文微博情感分析的方法,提取了基于情感词典的分值特征,基于机器学习的概率特征,以及基于深度学习的词向量特征融合进行情感分析,提高了情感分析的效果,主要工作包括以下几方面:1.研究了基于情感词典特征和机器学习特征的两类情感分析方法的基本原理和算法,并且比较了它们各自的优劣。2.设计了基于SO-PMI(Semantic Orientation-Pointwise Mutual Information)算法和情感符号词典扩充情感词典的方法,并使用扩充后的词典结合规则模板抽取了每条文本的情感分值特征。实验结果表明,使用新的情感分值特征分类效果比传统的情感词典特征效果更好。3.设计了新的基于机器学习的微博文本特征抽取方法,借鉴集成学习的思想,集成朴素贝叶斯,逻辑回归,支持向量机以及最近邻分类器的概率输出结果,共同构建特征向量作为特征。实验结果表明,使用新的基于机器学习的概率特征进行情感分析效果更好,特征的表征能力更强。4.训练Word2vec模型,并使用模型对每条微博抽取了包含上下文语义的词向量特征作为补充特征,同时融合情感分值特征和机器学习概率特征进行情感分类实验。实验表明本文提出的融合多种特征进行情感分析的方法能够实现特征互补,达到更好的情感分类效果。
其他文献
自本世纪初以来,流式细胞分选技术在生物医学领域的应用日趋广泛,已成为现阶段最热门的通用化细胞分离纯化技术。笔者所在科室在长期的流式分选技术服务中根据客户需求不断对
各种法律文本的解释方法都可归结为情理性解释,法解释者的解释只有采纳了情理性的论据时才具有说服力.法解释过程具有主观性,但结论却是法解释者遵循法解释程序原则的主观性
节奏是人们熟悉的一个名词,然而对它所下的定义却众说纷纭,莫衷一是。究竟节奏是什么?语言节奏的定义该怎么下?汉语节奏又有什么特色?就很值得推敲。一般说,人们谈到节奏,很
病人女 23岁已婚因发热、胸痛6个月于1990年10月在地区人民医院诊为结核性胸膜炎,11月12日转本院。既往曾于同年10月中旬及11月初两次服R(0.3顿服),出现腹痛、恶心呕吐、皮
目的观察吡拉西坦添加治疗儿童难治性肌阵挛癫痫的有效性。方法 5例药物难治性肌阵挛癫痫儿童添加应用吡拉西坦,观察患儿的发作频率、不良反应、认知改善情况等。结果其中2例
酒店设计是一个有别于其他类型的设计分类,是一个多专业、多团队、多单位合作的高度综合的设计。在我国高端酒店的设计与管理过程中,酒店管理人员应积极采取更为有效的应对措施
随着城市经济的发展,城市绿化用地越来越少,屋顶绿化对城市建设、生态系统的改善有着重要意义。阐述了屋顶绿化的功能与作用,对屋顶绿化植物的选择提出了建议,并对其前景进行
<正>迄今,病毒性肝炎(特别是慢性乙型肝炎)、肝硬化和肝癌仍然是困扰科学界的世纪性难题.对此,世界卫生组织(WHO)提出了防治病毒性肝炎、"消除肝炎危害"的"2030年目标"(https
地层测试是油气田勘探开发过程中,在井下实时准确地获取井下地层的压力、温度等数据资料,对于迅速了解储层、加速油气田勘探开发过程具有非常重要的意义。由于井下测试阀等机
在当今这个以人为本、重视人才的社会,人在生产力发展中所起的作用日趋重要,人力资源会计的重要作用必将被人们意识到,人力资源会计也必将普及性地进入传统会计的理论和实践范畴