基于短文本特征扩展与Fused-KNN算法的情感分析方法研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:cqc465330937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今社会,信息化技术正处于高速发展的状态,在各行业得到了广泛应用。其中,挖掘新闻评论短文本中蕴含的有效情感信息,从而达到对社会舆情进行管控等目的,成为近年来的研究热点。然而,若直接对评论短文本进行情感分析,其固有的情感特征偏少的缺陷会导致最终得到的结果差强人意。此外,常用于情感分类的K近邻(K-Nearest Neighbor,KNN)算法在近邻样本选择环节以及样本类别判定环节均存在缺陷。基于以上问题,本文立足于提高KNN算法的分类性能以及扩展新闻评论短文本的情感特征,主要完成了以下工作:首先,针对传统KNN算法在采用欧式距离衡量样本距离时将样本不同属性之间的差别同等对待,从而导致近邻样本选择不准的问题,提出一种基于相关距离的近邻样本选择策略;针对“少数服从多数”的类别判定机制易受样本不均现象影响的问题,提出一种基于本文所构造极性影响因子之和的样本类别判定策略。本文同时将这两种改进策略应用于KNN算法的两个环节,提出一种融合改进策略的KNN(Fused-K-Nearest Neighbor,Fused-KNN)算法,并将其作为新闻评论短文本的情感分类器。实验结果表明,该算法可以更为精准的选择近邻样本,并获得更优的类别判定结果。其次,针对现有算法在解决短文本情感特征稀疏问题时未充分利用维基百科所蕴含信息的问题,提出一种能够对之进行综合利用的短文本特征扩展方法。该方法首先提出一种基于维基百科页面内容、文章网络以及分类树的语义相关度计算算法(Similarity Calculation Algorithm Based on Page and Structure,PS-SIM),衡量新闻评论短文本中的主题词与其候选扩展词之间的语义相关度,然后将得到的结果递减排序,最后选出相关度高的候选扩展词作为最终的扩展结果。实验结果表明,该算法可以对新闻评论短文本的情感特征进行有效扩展,并能使分类算法得到更多的有效信息,提高其分类性能。最后,为验证本文研究成果的实际应用效果,结合腾讯新闻设计并实现了网络新闻评论情感分析原型系统。同时,分析了系统的结构及流程,阐述了评论获取、特征扩展、情感分析等模块的实现过程,并通过结果展示模块可视化地展示了情感分析结果,为以后相关系统的研发提供参考与借鉴。
其他文献
在机器人领域中,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人研究领域的热点与难点问题,引起了许多研究者的关注。本文在研究国内外SLAM算法的基础上,对SLAM算法进行了深入的分析和研究,并对算法中所存在的不足作出了一定改进,提高了机器人定位和地图构建的估计精度及执行效率。具体的研究内容如下:首先,阐述了SLAM问题的基本模型并对
益贫式增长问题的核心在于研究增长及分配的减贫机制,同时促使贫困群体参与增长过程并共享发展成果,其最终的立足点是减贫政策。本文从益贫式增长的内涵和测度方法出发,从全国和省域层面对2005-2016年城镇益贫式增长的现状及时空分异特征进行综合测评。从理论层面上探究了收入分配政策(初次分配、再分配)、区位政策、经济增长、地方投入产出和人力资源禀赋对益贫式增长影响的分析框架,并运用面板数据模型进行实证检验
本研究以科尔沁沙地为研究区域,榆树疏林为研究对象,采用多智能体思想,以NetLogo为平台,以内蒙古乌兰敖都试验站的野外观测数据作为模型准确性验证的依据,实现榆树空间格局形成过程以及其动态变化的模拟,探究榆树空间格局形成过程中风力、植被盖度、土壤含水量、竞争等影响条件对榆树疏林的影响。主要研究结果如下:(1)风力驱动是影响种子扩散的重要影响因素,种子扩散数量在各个方向上呈现先增加后减小的单峰分布的
时间序列数据的挖掘是一个重要且成熟的研究主题,解决了很多现实问题。多变量时间序列(MTS)在众多领域应用广泛,如何对MTS准确高效地进行聚类已经成为一个热门的研究课题。相
意识形态是能够反映一定阶级社会关系,以维护某一社会阶级利益为目的思想体系,其包括政治、经济、文化、法律、道德、哲学、宗教、艺术等。国家的安定,需要意识形态的统一,政党的统治稳定,更需要有稳定的意识形态做保障,稳定的意识形态也有利于为经济社会发展营造良好的社会氛围,为社会成员形成良好的社会心理打下坚实的基础。改革开放以来,随着中国和外国思想文化的交流,中国的意识形态受到了一些外在因素的影响,出现了一
视觉里程计(Visual Odometry,VO)是基于视觉的同时定位与地图构建(viusal Simultaneous Location and Mapping,vSLAM)系统中的一个极具挑战的开放性问题。其主要任务是依据视
专利是一种发明创造也是一种知识产权并且受到法律的保护,包含了大量的科技成果和创新技术。对已有专利中包含的知识资源进行深层次的挖掘和分析,是科技创新的前提。本文拟通过构建新能源汽车领域的专利知识图谱来实现对该领域专利知识的表示、分析以及挖掘,从而更加有效的分析专利之间的联系,优化专利的检索。知识图谱是通过符号的形式来描述物理世界中的概念及其概念之间的关系,是结构化的语义知识库,不仅能以更接近人类认知
随着信息技术的更新发展,人们步入了大数据时代。人们日常生活中随时随地都在产生大量的信息数据,如何在海量的信息中获得隐藏在其中的有价值的信息,成为一个新的研究热点。其中聚类分析就是一种很常见的数据挖掘方法。与一般的单个聚类算法不同,聚类集成通过设计一个共识函数将多个不同的聚类结果融合,能获得比单个聚类算法更好的聚类结果,但要是在集成成员生成过程中产生的聚类成员结构不同,怎样选择合适的聚类成员,将对最
如今我国的交通安全问题已上升为一个社会问题,随着中国车辆的逐渐增多,道路交通事故也发生得越发频繁。在中国,因道路交通安全事故伤亡人数一直在逐年递增,那到底是什么原因导致这样的呢?调查发现人们对交通规则的漠视可能是造成交通事故的主要因素之一,而利用公益广告宣传道路交通安全意识,是减少道路交通安全事故的重要手段。但广告投入之后,效果却并没有想象中的那么好。因此探究公益广告怎样才有更好的引导作用是非常重
随着计算机软硬件的更新换代,现如今的计算机能够获取到的图像资源正在呈几何式的增长。当海量的图像资源涌入我们的视野,为了获取图像中的关键信息,计算机必须要对这些图像作相应的处理从而让图像中的关键信息展露无遗。而传统的图像处理方法较低的准确率与过高的执行时间显然无法应付当今的海量图像资源。这无疑给图像处理领域带来了新的难题,同时也提出了新的挑战。而图像分割作为计算机视觉领域的基础,首当其冲。传统的图像