基于改进型词典和集成学习的文本情感分析研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:erikwg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户数量的快速增长以及电商和微博等社交平台的流行,互联网中的文本数量呈现爆炸性增长。挖掘海量文本信息,具有很大的舆论价值、商业价值和社会价值。例如:分析微博数据有助于政府对热点事件和突发事件进行舆情控制,同时有助于对政策和政治选举进行预测。分析商品评论数据,挖掘消费者意见有助于客户进行商品决策,同时为商家提供产品反馈意见,促进商品质量的提高。目前基于文本情感分析预测算法中,仍然有很多难题待解决。如情感词典存在资源少、时效性弱问题,单分类模型的泛化能力差问题,大规模集成学习在文本分类实验中存在的时间瓶颈问题。针对上述问题,本文展开研究,主要工作及创新点如下:(1)为了提高情感词典的质量,针对已有基准词选取方法的不足和词汇语义倾向计算未考虑正负基准类别个数差异的问题,本文提出了一种剔除异常点的中心向量法来选取基准词并改进了词汇语义倾向计算公式。首先在基准词选取方法上,本文基于邻近度技术查出基准词中的异常点,并将其删除,然后通过中心向量法计算每个情感类别的基准向量来稀释基准词误差,最后根据新词向量和中心向量的相似度计算来标定新词情感极性并添加到情感词典。在词汇的语义倾向性计算中,本文引入了正、负基准向量个数两个参数来改进语义倾向计算公式。实验验证该基准词选取方法配合改进型的语义倾向计算公式能够降低正负基准类别个数差异造成的准确率下滑影响,显著的提高情感词典分类准确率。(2)针对情感分类模型对情感特征的高敏感性和单分类模型的泛化能力差问题,本文提出了基于情感特征优化的集成学习方法。该方法首先以改进型词典为基础,融合中文句法规则、表达习惯等特点,对多个分类器的情感特征进行了优化,然后使用集成学习方法对多个模型进行最优化集成。在NLPCC等多个标准数据集上的实验验证,采用优化特征的多模型集成学习方法在分类效果上得到了很大的提升。(3)针对大规模集成学习在文本分类实验中存在的时间瓶颈问题,本文利用Spark分布式计算框架设计实现了集成学习模型并行化算法,该算法能够充分利用集群的计算性能,在保证文本情感分类指标基本不变的情况下,大幅度的缩短了集成学习文本分类时间,实验验证算法的可拓展性良好,为海量文本集成学习分析提供了新的解决思路。
其他文献
<正>有句玩笑话是这么说的:一只鹅如果活在匈牙利,恐怕几辈子都不会想再投胎做鹅。此话不假。网上曾经盛传过一个批判中国人"极端饮食"的帖子,举例甚多,包括生吃猴脑、生烤鹅
期刊
大黄蟅虫丸在肝病中的运用探析季光上海中医药大学(上海200032)大黄虫丸,源自《金匮要略》,由大黄、黄芩、甘草、桃仁、杏仁、芍药、干地黄、干漆、蛇虫、水蛭、蛴螬、虫等组成。原治“
[目的] 评价彩色多普勒超声、远红外热图及两者联合应用对乳腺癌的诊断价值。 [方法] 对2002年1月至2003年12月在浙江大学附属第二医院初诊收治的240例乳腺癌患者的
宴席曲是流行于河湟地区回族群众中的一种集说唱、舞蹈、表演于一体的内容丰富,形式多样,曲词健康的婚俗性民间曲艺。为了给喜庆的婚礼助兴,宴席曲极尽贺喜戏耍之能事,而在尽
目的:当前,我国的农村经济得到了较快的发展,尤其是在改革开放以后.农村经济更是呈现出一片大好的发展趋势。然而,由于受到传统发展观念的影响,农村地区的环境污染与经济发展
俄罗斯杰出的戏剧教师尼古拉·瓦西列维奇·杰米多夫研发了一种能让演员触摸到神秘灵感的内在有机技术,这种内在有机术可以让演员实现"自我觉察"的创作过程。杰米多夫在创造
本文针对近年来的哺乳动物克隆技术的研究热点,分别从体细胞克隆方法,克隆动物的细胞核重编程,异种克隆及其治疗性克隆等方面进行了分析,并且对克隆技术在转基因中的应用进行
期权是非常特殊的一类衍生工具 ,是在未来时间的选择权 ,是一种“或有”要求权 .它们的估值和定价非常困难和复杂 ,要用随机微分方程来刻画动态调整组合头寸保持无套利均衡的
<正>头晕(dizziness)的经典概念是:头晕表现为头重脚轻、站立或行走不稳,无自身或外界物体运动或旋转感。这一概念的内容较为局限,与大众心目中的头晕内容不一样,大众把许多