【摘 要】
:
随着互联网行业的蓬勃发展,消费者已经不满足于传统的线下购物形式,如淘宝、京东等电子商务购物平台成为一种必不可少的新选择。在消费者进行线上购物体验的同时,也产生了大量对电商服务的评价数据。这些评价数据不仅有益于提高卖家对自身商品服务的认识,也成为其他消费者进行消费时的重要参考。以淘宝电商为例,消费者的评论文本有其特殊的领域特质,如口语化、多属性评价、文本结构复杂等。与传统的句子级文本情感分类不同,属
论文部分内容阅读
随着互联网行业的蓬勃发展,消费者已经不满足于传统的线下购物形式,如淘宝、京东等电子商务购物平台成为一种必不可少的新选择。在消费者进行线上购物体验的同时,也产生了大量对电商服务的评价数据。这些评价数据不仅有益于提高卖家对自身商品服务的认识,也成为其他消费者进行消费时的重要参考。以淘宝电商为例,消费者的评论文本有其特殊的领域特质,如口语化、多属性评价、文本结构复杂等。与传统的句子级文本情感分类不同,属性级文本情感分类更关注对句子中具体属性的情感分析。针对复杂的电商长评论文本,现有的属性级文本情感分类方法仍有不足。现有研究往往依赖于属性词与上下文的联系,然而对于这样的复杂评论,容易引入大量的额外噪声。因此,本文提出基于情感描述的属性级情感分类研究,对于给定的属性词和所在的评论文本,获取属性词相关的情感简化文本,辅助评论文本进行情感分析。本文从情感描述的获取方式出发,将本次研究划分为三个层次,分别是:1)基于边界检测的属性级情感分类研究:通过文本抽取的方式获取情感描述文本;2)基于情感描述生成的属性级情感分类研究:通过文本生成的方式获取情感描述文本;3)基于依存关系与情感描述的属性级情感分类研究:考虑文本的句法语义结构信息,获取情感描述文本。具体研究工作如下:首先,针对复杂评论中属性词的情感描述仅占其一小部分,极易收到外界噪声影响的问题,本文提出了基于边界检测的属性级情感分类方法。首先,收集并处理来自淘宝电商三个不同领域的中文电商评论,根据任务需求整理SemEval2014年、2015年及2016年关于餐馆的英文评论,并对每条评论的每个属性都标注出其情感描述位置。其次,建立基于序列标注的文本抽取模型,将属性词与评论文本作为输入,通过序列标注的方式抽取出评论中属于情感描述的词并将其作为情感描述简化文本,最后,将抽取的情感描述简化文本结合原评论进行情感分类。实验表明,本文提出的基于文本抽取的属性级情感分类方法,能够有效地缓解复杂评论中其他噪声的影响,充分地利用属性词相关情感描述信息,提高属性级情感分类的效果。其次,针对评论中属性词的相关情感描述子句受限于原文本言语表达的问题,本文提出了基于情感描述生成的属性级情感分类方法。首先,将属性词与评论文本作为输入,通过注意力机制学习文本特征。其次,构建文本生成模块,在文本生成训练中使用unilm中特殊的掩码机制,构建基于BERT的文本生成模型。同时,在文本生成模块中加入属性词与情感词的隐变量支持,分别用于加强生成文本对属性词的敏感度以及保持生成的简化文本与属性词在原评论文本表现的情感一致。实验表明,文本生成的方式能有效地缓解文本抽取的局限性,使情感描述简化文本更易于机器理解。本文提出的基于情感描述生成的属性级情感分类方法在属性级情感分类准确率上普遍高于基线实验。最后,针对情感表达较为复杂且不容易简化的问题,本文提出了结合依存关系与情感描述的属性级情感分类方法。首先,使用自然语言处理工具对评论文本进行句法分析,获取评论文本的句法依存关系。其次,以属性词为中心提取相关依存关系并将其序列化。然后,将属性词、评论文本以及依存关系作为输入,在基于BART的文本生成模型中,加入依存关系的序列嵌入向量,加强文本生成学习过程中对属性词在评论文本中的语义理解,同时加入属性词与情感词的隐式模块,分别用于加强对属性词的关注以及情感倾向表达的一致性。实验表明,本文提出的依存关系与文本生成结合的属性级情感分类方法能够有效地分析评论文本的句法结构,利用属性词的上下文语义信息提高情感描述简化文本的生成质量。在与基线实验的对比中,该方法拥有更高的属性级情感分类准确率。
其他文献
近年来,网络安全问题日益受到关注,身份认证作为一个系统或者应用的入口,其对整个系统的安全性起到了至关重要的作用。目前主流的身份认证方案仍然采用的中心化的方式,较为常见的有“账号+密码”的形式、PKI(公钥基础设施)技术、人脸识别技术。尽管目前这些技术比较成熟了,但依旧会暴露出许多网络安全方面的隐患,比如单点故障、易受攻击、隐私泄露、数据篡改、管理困难。如今区块链技术非常火热,由于其本身具有去中心化
目的 探讨早期颅骨修补手术治疗脑外伤的临床价值,为脑外伤患者探寻更好的治疗方案。方法 选取 2021 年 5月—2022 年 7 月滕州市中心人民医院收治的脑外伤患者 66 例纳入研究,随机分为对照组和观察组各 33 例。对照组先给予脑室-腹腔分流术,3 个月后给予颅骨修补术,观察组给予早期颅骨修补术与脑室-腹腔分流术联合治疗。比较两组治疗效果、术后恢复情况及并发症发生率。结果 观察组的优良率为
生态修复理念的应用能够很好地解决环境保护与开发平衡问题。在湿地公园设计与建设中融入生态修复理念,能够在帮助改善当地人居环境的同时发挥出良好的生态效益和经济效益。解析湿地公园及生态修复的概念,提出了生态修复理念下湿地公园设计原则(因地制宜原则、生态设计原则、协调发展原则、美学原则),分析总结了国内外生态修复理念下湿地公园的典型设计案例(伦敦湿地公园、杭州西溪湿地公园、六盘水明湖湿地公园),为利用生态
近年来,随着生物医学文献数量的飞速增长,如何从这样庞大的生物医学文献资料中快速高效地抽取出有价值的信息是当前急切需要解决的问题。生物医学领域中的命名实体识别(如疾病、化学物、基因/蛋白质等)和关系抽取,对生物医学知识图谱的构建、精准医学和新药研发等工作具有非常重要的意义。本文在生物医学领域的文本挖掘领域进行了以下三个方面的研究工作:(1)基于机器阅读理解(Machine Reading Compr
属性抽取旨在从非结构化文本中抽取与文本实体对应的属性和属性值,是知识图谱构建的一项重要子任务。目前,基于深度神经网络模型的属性抽取任务已取得长足进步。但是,属性抽取任务中依然存在较多亟待解决的问题,包括缺乏高质量标注数据、模型未能充分使用知识库中的知识、未登录词识别性能较低以及属性抽取模型对文本特征学习能力不足等。针对上述问题,本文的主要内容如下:(1)构建了基于远程监督的电商领域属性抽取数据集。
蛋白质是构成生命物质的基本有机物,蛋白质变异是产生疾病的一个重要因素,区分中性的和与疾病相关的突变可以快速筛选出潜在的致病位点。本文开展了蛋白质突变致病性计算建模研究,主要研究内容如下:通过基于多尺度卷积和双向门控循环神经网络的深度模型BMBQA来评估蛋白质预测结构的质量分数。在经典数据集上的结果表明,不管在评分的准确性上、还是对预测结构的排序能力以及最优结构的挑选上,BMBQA均具竞争力。该工作
文章在前人注解、研究的基础上,从“玄”“府”之义、“玄府”的命名本义入手,在道家思想文化背景下对《黄帝内经》“玄府”新探,并对《黄帝内经》“玄府”相关文句加以诠释。认为“玄”即是“道”,“玄府”之本义为阴、阳之间相互作用、相互转化的处所和通道,《黄帝内经》“玄府”之命名实源出于道家文化,相关论述与道家文化密切相关,反映和蕴含了道家文化的内涵。基于“玄府”的本义,《素问·水热穴论》等释“玄府”为“汗
基于图像一阶或二阶差分的边缘检测算子通常对噪声敏感,这种敏感使得平滑图像步骤作为边缘检测的前置过程必不可少。当采用各向同性高斯核函数平滑图像时,边缘检测算法陷入了两难境地:小尺度高斯核具有较好的边缘定位和分辨率,但对噪声敏感;大尺度高斯核对噪声具有较强的鲁棒性,但边缘定位和分辨率较差。各向异性的边缘检测基于各向异性高斯核和,优势是抗噪性强,边缘分辨率高,缺点是存在“边缘拓散”问题,并且不适用于折反
兴趣点推荐是数据挖掘领域中的热门话题,受到了工业界与学术界的持续关注,其旨在通过对海量数据的挖掘,提取有效信息,作出准确判断,最后针对目标用户提供满意推荐。常用的传统推荐算法如协同过滤、矩阵分解等被运用至该领域,但这些方法依赖人工进行特征筛选,导致提取的特征信息不充分,同时在基于位置的社交网络上,用户的交互数据十分稀疏,此场景下传统方法的推荐效果有限。基于此,本文借助图神经网络的强大建模优势,围绕
目的 探讨快速康复神经外科护理干预对颅脑外伤患者肢体功能及预后的影响。方法 从本院2022年1月至2022年12月收治的颅脑外伤患者中选取64例,以统计学软件将患者均分为两组,各32例。对照组行常规护理,观察组行快速康复神经外科护理模式,护理至患者出院。比较两组患者Fual-Meyer运动量表(FMA)、日常生活能力评定量表(MBI)、并发症、心理健康及生活质量。结果 护理后,观察组FMA、MBI