面向在线评论的情感分析方法研究

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:hj0411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的迅猛发展,互联网上的用户评论和观点激增,数据量呈爆炸式增涨。这些隐含用户情感倾向的文本在产品推荐、舆情监控以及信息预测等方面具有重要意义。基于对当前情感分析方法的总结分析,本文提出了两种情感分析方法:一是针对现有情感词典和朴素贝叶斯算法的缺陷,提出一种结合情感词典和改进朴素贝叶斯的情感分析方法SD-PCANBC,以获取更好的分类效果;二是基于预训练模型以及Attention机制,针对文本的语义特征提取和表示进行改进,以提升情感分类的效果。1、针对现有情感词典无法精准捕捉微博评论情感词的情况以及朴素贝叶斯算法需要满足属性相互独立的条件假设的缺陷,基于SO-PMI算法重新构建了微博评论情感词典,并使用基于PCA的加权朴素贝叶斯算法作为分类器,提出了一种结合情感词典和改进朴素贝叶斯的文本情感分析方法SD-PCANBC。首先利用新构建的情感词典计算文本情感值,并使用TF-IDF特征权值计算方法结合文本情感值与词向量获得文本的加权特征表示,然后对其进行PCA特征降维,得到相互独立的主成分,作为朴素贝叶斯的属性值,这可以缓解模型条件特征相互独立假设造成的缺陷,之后使用方差贡献率作为朴素贝叶斯的权重,消除了权重相同的问题,并设置了消融实验和对比实验。结果表明,结合情感词典和改进朴素贝叶斯的文本情感分析方法优于单一方法和其他机器学习模型。2、针对传统语言模型无法直接提取句子的双向语义特征,导致情感分类准确率较低的情况,对文本的语义特征提取和表示进行了改进,提出一种结合预训练语言模型ALBERT、神经网络BiLSTM以及Attention机制的情感分析模型ALBERT-BiLSTM-Att。ALBERT因为采用基于自注意力机制的Transformer作为网络结构,相对于One-hot、Word2Vec等传统词向量表示技术,解决了词语多义性的问题,可以得到更丰富的语义特征,进一步优化了输入文本的词向量。BiLSTM-Att模块中,BiLSTM的独特机制以及注意力机制为不同的词分配不同权重的特点,可以获取文本更深层次的特征。最后在数据集weibo_senti_100k上,设置了消融实验和对比实验,以验证模型的优越性。结果表明,基于ALBERT-BiLSTM-Att的文本情感分析方法在微博评论文本上相比其他模型在准确率上具有更好的表现。最后使用指标较好的模型ALBERT-BiLSTM-Att对爬取的酒店评论文本数据集进行情感分析,并对分类后的评论文本进行LDA主题挖掘,直观体现酒店的优缺点。本文综合分析了三种分类方法的优缺点,并在此基础上对在线评论文本的情感分析任务进行了研究,提出了两种分类模型,并对分类结果进行了主题挖掘。实验结果表明,本文的研究虽已取得初步成果,但也存在着诸多问题以及巨大改进空间。
其他文献
在我国双循环的新发展格局下,高铁作为我国重要的基础设施,对于推动制造业全球价值链攀升具有重要意义。本文在全球价值链分工背景下,以制造业出口国内附加值率为切入点,采取双重差分法的方式,对高铁开通对企业出口国内附加值率的影响效应和其中的作用机制进行系统探讨。首先,本文构建了出口国内附加值率的理论框架并分析了其中的作用机制。(1)高铁开通提高了制造业企业对于最终市场和中间品市场的通达性,通过规模经济效应
学位
我国经济已经从高速增长阶段进入高质量发展时期,正处于转变粗放型发展方式、优化经济结构的攻关阶段。产业结构升级是转变粗放型经济发展方式,提高经济发展质量的重要举措。金融作为经济资源配置的核心,是产业结构升级过程中不可或缺的发展动力,然而,我国传统金融发展中金融排斥问题突出,发展数字金融,深化金融供给侧结构性改革,可以更好地提升金融服务实体经济的能力。数字金融借助数字技术,能够显著提升金融服务的覆盖广
学位
保险业作为有效分散社会风险的行业,在国民经济发展中发挥着重要的作用,评估其潜在的风险并作出有效的监管,已经成为当前日益重要的工作之一。注意到,现代保险公司通常将其保险盈余投资到日趋复杂的金融市场以谋求风险收益,从而承担了由金融市场多样性和金融资产收益不确定性带来的巨大风险。自20世纪80年代以来,极端(巨灾)事件层出不穷,重大风险形势严峻,极端事件造成的重大损失日趋严重,因为其引发的往往是重大理赔
学位
改革开放以来,中国经济迅速发展,到2021年,中国经济总量达114.4万亿元,成为世界第二大经济体。经济飞速增长的同时,也带来了严重的环境污染问题。自2005年起,中国已成为世界上二氧化碳排放量最多的国家。中国政府采取积极行动,2021年建立全国性碳排放权交易市场,运用市场机制推动碳减排,实现碳排放总量控制和峰值目标。碳排放权交易机制有助于激发企业的减排积极性,引导企业将技术和资金导向低碳发展领域
学位
近年来,许多大规模的机器学习问题得到了越来越多的关注并取得了飞速的发展,如计算机视觉、自然语言处理、推荐系统等。这些成功的背后离不开大规模的数据集和机器学习模型,然而大规模的数据集和模型无法在内存和计算资源有限的单机上进行存储和训练。这个富有挑战性的问题是通过分布式机器学习解决的,即利用多台机器来完成原本在单机上的训练任务。对于强大的二元分类工具支持向量机(SVM),在高维空间中,本文提出了一类新
学位
中国保险行业进入新世纪后,得到了快速发展,与之相伴的是保险欺诈也日益猖獗。保险欺诈在保险市场的泛滥会造成保险公司设计更高的保费、付出更高额的赔付,同时运营收益却在下降。因为保险公司经常把保险欺诈的损失通过保费设计转嫁到投保人身上,最终保险欺诈的损失由全社会买单。因此保险欺诈的存在对保险行业的良性运行发展极为不利,遏制保险欺诈的泛滥,不仅有利于保险公司正常经营,也有利于社会金融秩序的稳固,对经济发展
学位
中国作为当今世界第二大经济体,股票金融市场也在不断发展与完善,股票市场作为实体经济的衍生物,容易受到实体经济的影响而大幅度波动,故研究宏观经济变量指标对股票市场的影响,有利于为政府当局调控宏观经济政策提供建议,保证我国股票市场的健康发展。文章首先基于低频数据下探究股票数据和宏观经济变量数据之间是否存在相关性,选用股票月度数据与宏观经济变量进行Johansen协整检验、Granger因果检验等,选用
学位
当前我国已进入高质量发展阶段,长三角城市群作为我国双循环新发展格局的重要承载地,其经济规模体量大,对外开放程度高、科技创新能力强,是最有能力率先实现现代化的区域之一。推动长三角高质量发展对于我国稳步推进第二个百年奋斗目标意义重大。因此,当前需要扎实推进长三角高质量发展,为全国高质量发展作出榜样、提供参考。基于此,本文在分析长三角高质量发展内涵的基础上,实证研究了长三角高质量发展的水平、空间分布特征
学位
进入新世纪以来,中国大规模投资、建设和运营高速铁路,阔步迈入“高铁时代”,“八纵八横”高铁网络基本形成,在改变中国交通格局和民众出行方式的同时,也影响了人口与产业布局,从而必然对城市碳排放产生影响。中国政府承诺二氧化碳排放于2030年前达到峰值,争取2060年前实现碳中和。在上述背景下,分析高铁开通对中国城市碳排放的影响,厘清影响机制,探讨高铁开通的空间技术外溢效应,并对城市间异质性进行研究,具有
学位
变化检测是遥感图像处理的热点问题,高光谱图像因其极高的光谱分辨率显著提升了变化检测的精确程度。利用多时相的遥感影像数据进行变化检测在灾害评估、地形变化分析、城市变化检测分析等领域有着重要应用价值。然而,目前一些适用于低维多光谱图像的传统变化检测方法无法适应高光谱复杂的高维特征,并且高光谱图像的光谱信息中包含噪声、信息冗余、低空间分辨率使得单一挖掘光谱信息进行变化检测的效果不佳。因此,将高光谱的光谱
学位