基于BERT的在线评论隐性特征识别方法研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:clarkkevin_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展,电商平台在人们生产生活中越来越重要,同时也成为我国经济体系中十分重要的一部分。尤其在2020年上半年面对新冠疫情的严峻挑战时,商品消费明显由线下向线上转移。顾客和商家对产品和服务的线上评价反馈愈发重视,然而海量评论让人难以找到对自己有用的信息,在此背景下观点挖掘技术应运而生。传统的文档和句子级别的观点挖掘只能获得产品和服务在整体上的优劣,无法获取方面或者属性级别的评价信息,难以满足顾客和商家对于更加细粒度的观点信息需求。因此,特征级别的观点挖掘分析,即细粒度观点挖掘脱颖而出,成为近年来学术界和工业界的研究热点之一。特征级别观点挖掘,也称作方面或属性级别观点挖掘,是对评价对象的不同特征进行观点挖掘和情感倾向分析。观点内容提取和评论特征识别是特征级别挖掘任务的两个子任务,通过在评论文本中获取特征级别的观点内容,再判断该观点评价的特征,达到识别出特征级别观点信息的目的。面对评论中通常包含多个特征方面观点时,从评论中获取特征级别观点内容是观点挖掘的首要任务。有效的提高观点识别的准确性和自动化程度,更有助于特征级别观点挖掘任务的开展。此外,许多评论中都并未以字面形式显式包含评论特征,在特征挖掘研究领域中,大多研究都是针对显性特征进行,面向隐性特征的研究相对较少,是特征挖掘中的难点问题,因此挖掘分析隐性特征对于观点挖掘任务来说有着重要意义。在此背景下,本文以某品牌服装的在线评论作为研究数据,以识别评论中隐含的隐性特征为研究目的,先采用BERT和CRF结合的序列标注方式提取特征级别观点内容,再用BERT-AV模型对隐式观点内容识别其隐性特征。主要研究内容如下:(1)数据预处理。针对网络评论标点符号不规范,造成传统分句方法工作量较大的问题,采用序列标注的方法,对评论中特征级别观点内容进行逐字标注。这种方法能够有效识别短评论中细粒度的观点内容,逐字的方法更准确的观点内容进行提取减少信息丢失,同时减少非观点内容对后续特征识别工作的影响。(2)基于BERT和CRF的观点内容提取。采用序列标注的方式来提取观点内容,通过BERT和CRF模型结合的方式,让深度学习模型学习评论文本中的观点内容的相关信息,实现了评论中细粒度观点的自动提取,通过标注少量数据集即可获得不错的提取效果。此外,将标注好的观点内容采用基于规则的匹配方式筛选隐式评论,供后续模型的训练和测试工作使用。(3)通过构建特征类指示词表。通过大规模领域语料库构建特征类指示词表,其中特征词为名词,意见词为形容词和动词,使用多项常用指标进行筛选,挑选出与特征类最相关的意见词作为该类的指示词。最后,将各类的特征类指示词进行汇总,得到基于领域的特征类指示词表。(4)基于BERT-AV的隐性特征类识别模型。首先,通过BERT模型获得隐式评论观点句的句向量。然后,将隐式评论观点句子的分词结果与特征类关联词表进行匹配,若出现关联词,则计算其词向量信息,最后在微调阶段与句向量进行结合,输入到最后的全连接层中来实现隐性特征识别。通过将指示词的词向量信息融入到BERT模型中,增加句子的特征,使得经过微调的BERT-AV模型在多分类问题上有更好的表现。本文提出的基于BERT的在线评论隐性特征识别模型,可以有效识别出评论中的观点内容,提高隐性特征识别的准确率,提升特征级别观点挖掘的效果,在中文服装类在线评论数据集上有着不错的隐性特征识别效果。
其他文献
随着中国成为世界上最大的移动游戏市场,游戏企业间的竞争也日益激烈,新用户的获取成本比维护老用户的成本要高出不少,老用户能为游戏传递良好的口碑,扩大影响力,带来新鲜血液。因此,如何防止用户流失非常具有现实意义。如何降低用户的流失率已经是各大厂商最为重视的问题和重要研究方向。而大部分国内外研究多以全样本为主,几乎没有性别差异的分析,但实际上女性玩家已经接近半数。本文旨在研究用户流失现象背后的用户游戏体
学位
结直肠癌是全球常见的恶性肿瘤之一,具有易转移易复发的特点,其发病率和死亡率在癌症中均位居前列。脂肪酸-2-羟化酶(Fatty acid-2-hydroxylase,FA2H)是一种由372个氨基酸残基构成、分子量约为43kDa的膜结合蛋白,可催化(R)-2-羟基脂肪酸((R)-2-OH FA)的生成,参与调控肿瘤细胞增殖、凋亡、迁移和侵袭等生理过程。已知FA2H在部分结直肠组织中高表达,但其在结直
学位
背景:抑制肿瘤中异常高表达的癌蛋白是肿瘤分子靶向治疗的热点之一。c-Myc作为其中一个重要的癌蛋白,在包括肝癌在内的70%以上的人类肿瘤中高表达。因此,c-Myc成为备受瞩目的肿瘤治疗靶标之一。然而,由于c-Myc本身并不具备酶活性,通过药物直接抑制c-Myc的策略存在重大障碍。因此,发现和鉴定调控c-Myc表达的新机制,对预防和治疗c-Myc驱动的肝癌具有重要的临床价值和社会意义。肿瘤坏死因子受
学位
债权债务管理是财务管理工作的重点和难点,是财务风险控制的重要环节,在提高企业运营资金的使用效率、优化资产结构、真实反映财务指标等方面有重要的影响。本文意在通过探究债权债务全过程精益管理,强化运营风险防控,提升债权债务业务管理的自动化与智能化水平,有助于实现数据驱动管理转型升级,助力电网企业持续健康发展。
期刊
研究背景与意义:高血压是全球范围内常见的慢性疾病,是导致其它心血管疾病的主要病因,严重威胁着人类的健康,并对社会经济和疾病负担有着重大影响。同时,高血压作为心血管疾病最主要的可干预危险因素,阐明高血压的发病机制与危险因素对于预防和管理心血管疾病有着重要意义。最新研究发现,corin可将心房利钠肽前体(pro-ANP)转化成有活性的ANP,从而参与血压和心脏功能的调节。因此,corin与高血压的发病
学位
报纸
债券作为一种金融资产,除了可以帮助投资者实现资金的累积,还能够较好的进行投资风险的分散和转移。当前我国持续的放宽债券市场的各项政策,公司债的发行量持续增加,这让投资者能够从更多的渠道对自身的收益率进行满足。公司债券风险溢价的合理性在近些年变得愈发重要,而风险因素中流动性风险是探讨这一问题的重要途径。在我国独特的资本市场、政治、历史和经济环境下,公司债的风险溢价具有一定的特殊性,体现在方方面面。民营
学位
<正>看眼睛主要看眼睛的色泽和清澈度。小孩子都有一双清澈的眼睛。眼睛清澈明亮、神采奕奕,说明气血充足;眼白的颜色混浊、发黄,就表明肝脏气血不足。眼白与肺和大肠的关系密切,如果眼白有血丝,多为肺部和大肠有热;眼袋很大则说明脾虚。眼睛干涩、眼皮沉重,也代表气血不足。如果两目呆滞,晦暗无光,是气血衰竭的表现。
期刊
[目的]探讨不同发酵水分及菌酶协同发酵对豆粕品质的影响。[方法](1)采用单因素试验设计,设置5个不同水分处理组,料水比分别为1∶0.4、1∶0.5、1∶0.6、1∶0.7、1∶0.8,每个处理组3个重复;使用复合益生菌(枯草芽孢杆菌∶酵母菌∶粪肠球菌=1∶1∶1)发酵豆粕,通过测定分析发酵豆粕表观特征、营养指标及活菌含量,确定最适料水比。(2)采用单因素试验设计,设置5个不同中性蛋白酶添加量处理
期刊
量化投资的核心在于模型对资产价格的把握,如若能够对标的价格或上涨下降的概率实现较为精准地预测,则很容易为投资者赚取超额收益。因此不管是投资者还是学者们,对于股票或指数价格预测相关研究的热情从来有增无减。现有的股票或指数预测建模方法可以概括技术分析法,计量模型法和机器学习(深度学习)法三类。技术分析法比较直观、可操作性强,但其在实效性和准确性方面都存在着一定的缺陷。传统的计量经济学模型往往对数据分布
学位