【摘 要】
:
情感分析又称意见挖掘,已被记录的主观文本常带有感情色彩,而情感分析的任务就是判别出这些文本中的情感倾向性。网络文本情感分析是自然语言处理的主要任务之一,其主要包括语料数据加工、情感词典构建、情感倾向性分析等任务。有两种较为常见的方法可以进行情感分析,一种是基于情感词典的方法,这种方法有较高的准确率,但是召回率比较低,具有一定的局限性。基于机器学习的方法则无需太多语言学领域的信息,但是需要标注海量数
论文部分内容阅读
情感分析又称意见挖掘,已被记录的主观文本常带有感情色彩,而情感分析的任务就是判别出这些文本中的情感倾向性。网络文本情感分析是自然语言处理的主要任务之一,其主要包括语料数据加工、情感词典构建、情感倾向性分析等任务。有两种较为常见的方法可以进行情感分析,一种是基于情感词典的方法,这种方法有较高的准确率,但是召回率比较低,具有一定的局限性。基于机器学习的方法则无需太多语言学领域的信息,但是需要标注海量数据,导致不容易实现。通过深入学习和研究当前国内中文网络文本情感分析技术,发现目前的网络文本情感分类方法还存在以下几点不足。首先,通用的情感词典并不适用于特定领域,是因为不同的领域有不同的专业词汇,导致通用的情感词典无法识别。例如,电影网络评论作为网络文本的一个类型,仍未有完备的官方情感词典,导致用情感词典进行情感分析时效果并不理想,不能准确而充分地发掘文本的情感信息。其次,Word2Vec是将词表示为实数值向量的高效工具,但是Word2Vec模型无法区分文本中词汇的重要程度。最后,在对网络文本进行情感分析时,考虑到中文表达的文本中总是有中心词,这些中心词对文本情感倾向性的影响较其它词更大。现有的词向量表示就缺少对词语重要度的区别,这样的词向量表示不太符合认知。针对以上几点不足,本文设计了结合领域情感词典与机器学习的情感分析方法,主要工作如下:(1)改进SO-PMI算法,在计算PMI点互信息时引入共现词语间的距离关系,得到SO-LPMI算法。(2)提出语义加权词向量的概念。在计算词语的特征权值时引入语义因子改进TF-IDF权值计算得到LOCTF-IDF权值计算方式,突出文本的语义信息。(3)通过SO-LPMI算法扩建词典的方式得到电影领域专用情感词典。使用通用的词典与本文构造的电影领域情感词典分别对同一语料进行情感分类,并比较分类结果。使用LOCTF-IDF权值计算方式对Word2vec词向量进行加权,提高文本中重要位置感情词汇的权值,利用支持向量机进行分类实验来证明此方法的有效性。
其他文献
碳酸盐岩缝洞储集体非均质强、空间类型多样,对其进行表征、预测与描述很困难,而且缝洞储层预测及流体识别是目前复杂油气田勘探和高效开发的技术瓶颈,因此迫切需要针对裂缝-
“十二五”期间,随着“海洋强国”和“21世纪海上丝绸之路”战略的实施,国家和各沿海省市加大了对远洋渔业发展的扶持力度,促进了我国远洋渔业快速发展。但随着我国远洋渔业规模快速发展以及国际海洋生物资源竞争加剧,我国远洋渔业涉外安全事件有所增多,企业无序入渔等会使经济损失严重,入渔国家政局不稳定等因素也会使入渔不稳定,这些都对我国远洋渔业稳定、有序、健康发展造成了不良影响。远洋渔业发生渔业涉外安全事件、
本文针对硅藻土改性沥青技术在国内外的研究现状进行分析和评述,对硅藻土改性沥青的路用性能、改性机理、社会经济效益进行论述,结果表明,硅藻土改性沥青是一种区别于聚合物
气候变化具有非线性、非平稳状态的波动特征,存在着多种尺度的周期变化。气候的变化影响着植被的演替,而植被是区域气候变化的指示器。从不同时间尺度讨论秦岭地区气候变化的
在1997年,文献Int.J.Theor.Phys.38(1999)1113-1133,Adv.Theor.Math.Phys.2(1998)231-252指出,大N极限下,处于不同维度的某些共形场理论包含在它们的希尔伯特空间的一部分,这
随着西北地区社会经济的不断发展及国家“一带一路”中长期重要发展战略的实施与丝绸之路(敦煌)国际文化博览会的连续召开,河西走廊逐渐的得到了全国美术界的关注,越来越多的艺术创作者开始了以河西走廊地域风貌为题材和内容的绘画作品创作和美术探讨与研究。河西走廊山水题材作为西北山水题材的一个分支,在西北美术的现代化进程中是不可或缺的部分,很多人注重于宽泛的西北山水题材的研究与探讨,对与河西走廊山水题材的创作研
微表情是一种轻微快速的面部运动,它能够揭露一个人试图隐藏的真实情绪。因此它被认为是检测谎言的重要线索之一。由于它在不同领域有许多前景的应用,吸引了许多研究者的注意。然而,微表情有两个非常显著的特点:短时性和低强度性,导致微表情识别仍然面临着巨大的挑战,并且在已有的工作中,微表情识别的准确率很低。为了提高微表情的识别准确率,在本篇论文中,研究了基于深度学习的微表情识别算法,提出了三种微表情识别方法:
循环码是一类重要的纠错码,具有良好的代数结构。由于其编码和译码电路容易执行,因而在实践中被广泛地应用。对于给定的循环码的长度和维数,构造具有最大可能的极小距离的循
列车运行图技术资料主要包含列车间隔时间等25项内容,随着我国铁路建设的快速发展和调图文件的不断更新,列车运行图技术资料的安全有效管理对于保障列车安全运行具有重要意义。为了确保列车运行图技术资料的安全,需要确保只有得到授权的人员才能编辑修改列车运行图技术资料。深度学习的蓬勃发展使得其在人脸识别和验证方面得到广泛的应用。本文选用基于深度学习的人脸验证作为授权访问的方式,开发了列车运行图技术资料管理系统
2015年我国股市波动异常,股价出现了断崖式下跌,这不仅扰乱了股市的稳定,还沉重打击了市场投资者的信心。2015年7月8日中国证监会和上海证券交易所分别发布相关通知,限制上市公司股东和高管减持股票,明确鼓励上市公司股东和高管增持股票,以此来维护资本市场稳定。在政策的影响下,上市公司高管增持数量出现激增,高管增持行为也成为我国学者研究的热门话题。当前学术界关于上市公司高管增持公告效应的研究都是仅对全