基于LDA模型的微博情感分析技术研究

被引量 : 0次 | 上传用户:momoji12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网进入千家万户,网络早已成为大众获取信息、发布信息、传递信息的重要途径。与此同时,网络中出现了越来越多的主观性文字,如论坛帖子、博客、贴吧、微博等。人们可以很自由的通过这些主观性文字抒发自己的情感、思想,表达自己的意见。微博作为全球受到广泛欢迎的网络应用之一,越来越多的人习惯在以微博为代表的社交网络上获取信息、交流信息与表达情感。庞大的微博用户量以及用户所产生的微博数据背后隐藏着巨大的商业价值和社会价值。微博相关的研究课题越来越受到人们的关注,微博情感分析就是其中之一。微博情感分析是指通过分析和挖掘微博中的主观性信息并判断其情感倾向。微博情感分析技术应用场景非常广泛,能够应用于舆情监测、产品推荐、信息预测等多种系统。微博短文本的情感分析技术是近年来学术界的研究热点,相关技术评测也得到了各大高校的广泛参与,由于微博短文本存在口语化、简洁化等社交网络特征,对微博情感分析的研究具有相当的挑战性。深入分析研究微博情感分析技术,提升微博情感分析的性能具有十分重要的现实意义。微博的情感分析问题可以看作是分类问题,重点在于判别微博的正、负情感倾向性。所用的方法主要可以归结于基于规则的分类方法和统计机器学习的分类方法。微博情感分析现已取得不少进展,但从情感分类效果和性能看,依旧存在着准确率不够高、依赖性较强等缺点,因此本文研究希望找到一种能提高准确率,同时普适性较好的微博情感分析方法。首先,本文对文本情感倾向性分析的概念和基本的方法进行了总结分析,针对当前微博标注语料不足的现状,提出了半监督训练的方法,该方法能充分利用未标的注微博语料。其次,现有的情感分析方法主要是对微博的局部信息进行利用,通过特征工程的方法来提高分类的效果,本文采用LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型的方法可以对微博潜在的主题信息进行很好的利用。最后,将半监督训练的方法与LDA主题模型的方法进行了融合,以半监督训练为框架,使用LDA主题模型聚类后再使用SVM(Support Vector Machine,支持向量机)的方法对微博进行情感分析。实验结果表明,本文提出的方法能够很好的利用未标注微博语料和微博的主题信息,与传统的方法相比,正确率,召回率以及F1值都得到了一定的提高。
其他文献
为较理想地处理巷道的收敛变形与围岩力学间的复杂非线性关系,应用反分析方法研究了大冶铁矿龙洞-74m水平采矿巷道的围岩力学参数。首先应用正交试验理论确定有限元正分析的围
目的:研究虫草素在体外对舌癌TCA-8113细胞周期和凋亡的影响;方法:以噻唑蓝法(MTT)测定虫草素对TCA-8113细胞增殖活性的影响;用流式细胞术测定虫草素对TCA-8113细胞周期的影
《葛麻》是一部非常有名的地方戏楚剧,讲述了仆人葛麻运用自己的智慧和胆识与刻薄势力的财主马铎斗争、成全一段姻缘的故事。而《救风尘》是元代时期杂剧发展成熟时期的一部
针对畲族文化在继承和发展中存在的汉化、流失以及重视不够等问题,指出继承和弘扬畲族文化,必须在继承与创新的结合点上做文章,只有创新机制、创新方法,方能使民族文化之树永
通过农村幼儿园音乐教育中存在的硬件设施匮乏、资金不足,师资力量薄弱、教师专业素质不高,职前培训不到位的问题,提出了转变教育观念,提高教师专业素质,完善职前培训,合理调
天线阵的布置方法对宽频段高分辨阵列测向技术的应用有着非常重要的影响.在测向模糊定义的基础上,针对平面五元十字交叉阵,主要讨论了阵列的一阶二维测向模糊问题,并对阵列进
梅尔维尔发表于19世纪50年代的短篇作品十分讲求叙事的艺术性。以《广场故事集》的标题故事为例,该故事的表层文本表现的是叙述人理想与现实之间的反差导致的失望情绪。但分
提出了股票模拟投资大赛紧密结合专业教学、组织活动经济方便、形式生动鲜明、以"应用"方式培养"应用型"人才的功能优势,并对大赛在实践教学组织过程中的主要环节和容易存在
<正> 《堂吉诃德》是著名作家塞万提斯的代表作,是欧洲最早的现实主义长篇小说之一,也是我国人民最喜爱的外国文学名著之一。有人说,中国长篇小说的第一位知名艺术大师是罗贯
从“薄板理论”出发 ,利用良导薄板上磁偶极子源激发的瞬变电磁场电场分量的表达式和互换原理推导出了中心回线瞬变电磁测深法的感应电动势与纵向电导和深度的关系表达式 .通