基于数据增强的文本情感分析方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:lifen11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的出现拉近了人们之间的距离,人们逐渐习惯在社交平台上发表评论,这些评论为情感分析技术带来了发展机遇,也带来了挑战。一方面,情感分析任务往往需要大量的标签数据供分类器学习,然而现实世界中存在的更多的是无标签样本,且目前公开的社交网络相关的有标签数据集有限,不足以支撑大规模的监督学习。数据增强是一种扩充标签样本的方法,但是现有的数据增强方法往往只对文本进行相同标签条件下的扩增,不能挖掘情感词与其反义词之间存在的深层次联系。另一方面,情感分析任务在使用传统的机器学习方法进行分类时,否定线索会影响分类器的判断,导致模型处理含有否定语言特征的能力较差。针对以上两个方面的问题,本文提出了递进式的解决方案,主要内容如下:(1)以数据增强为切入点,提出了基于否定处理的情感逆转数据增强方法。该方法利用文本中积极情感词与消极情感词之间的对比性,对有限的有标签文本进行扩增,生成与原始文本标签相反的对立文本。在生成对立文本的过程中,提出了融合标点符号识别和连词分析技术的否定处理方法。该方法对否定线索和否定范围进行检测,以确保生成文本的高质量。(2)利用原始文本和对立文本对传统的机器学习训练模型进行改进,提出了基于对偶学习的机器学习情感分析模型和对此模型改进后的模型。这两个模型利用原始文本和对立文本之间的对偶性,分别使用SVM、NB和LR分类器训练样本集,以对立文本的分类结果辅助得到原始文本的最终分类结果,有效地降低了极性转移的消极影响,增强了模型分类能力的鲁棒性。(3)提出基于双向长短期记忆网络(Bi-LSTM)和注意力机制(Attention Mechanism)的对偶情感分析模型。该模型对原始文本和对立文本组成的对偶样本集进行情感二分类处理,在注意力层根据权重确定单词的注意力值,进一步提高了极性情感分析模型的分类准确率。在Twitter数据集上的实验结果表明,本文提出的数据增强方法能够有效地提升数据增强的效果。综上,本文使用基于否定处理的情感逆转数据增强方法对有标签文本进行扩充后,利用传统的机器学习模型以及结合双向长短期记忆网络和注意力机制的深度学习模型,提升了极性情感分析的准确率和模型的分类性能。
其他文献
本文以2003—2018年中国上市企业数据为样本,从税种差异视角分析了增值税有效税率与企业所得税有效税率变化对企业固定资产投资的影响。研究发现,增值税有效税率与企业固定资产投资的关系依赖于宏观经济环境和企业税负转嫁能力。具体而言,在经济上行期或税负转嫁能力较强的企业中,增值税有效税率降低促进了企业固定资产投资增加。所得税有效税率与企业固定资产投资之间始终为显著负相关关系。所得税有效税率的降低可以通
人类社会由工业时代进入到信息时代,信息技术被广泛应用于教育领域。技术取向劳动教育的局限、智慧劳动教育生态的价值诉求、劳动的智慧文化交互构成了智慧劳动教育生态建构的价值意蕴。同时,要明确智慧劳动教育生态建构的境域性、过程性、包容性的内生逻辑,智慧劳动教育是在特定时空下的现实存在,是面向实践的持续生成,是基于生命成长的生态建构。智慧劳动教育生态建构实践路径在于通过内涵解读明晰智慧劳动教育深层意蕴,持续
磨损作为3种失效方式之一,广泛存在于各种机械运动部件中,造成了大量的经济损失。针对磨损的研究,除了改进机械结构,良好的润滑外,材料本身的耐磨性至关重要。钢铁作为应用最为广泛的金属材料,其磨损性能的研究较为系统。本文针对铁基耐磨材料,从成分分类方面介绍了3大类,共9小类中国国内关于铁基耐磨材料的发展历程,强化研究和未来趋势,并对铁基耐磨材料的研究做出了展望。
从解决数学问题的认知过程来看,学生要先在具体的情境中抽象出数学问题,再通过模型的建构掌握数量关系。模型的建构是区分学生水平的环节,教师应在教学稍复杂的数量关系时,结合基本数量关系和常见数量关系建构等量关系模型,帮助学生抓住问题本质,进而建构解决问题的模型,提高学生解决问题的能力。
猫传染性腹膜炎是一种全身性、致死性的病毒性疾病,是幼猫和青年猫死亡的主要原因之一。近年来,该病在世界各地广泛流行,并呈一定的上升趋势,对伴侣动物行业造成了较大的经济损失。本文对临床上疑似猫传染性腹膜炎病例进行诊断,根据血液检查、生化检查、粪便以及腹腔穿刺液检查、X射线检查和B超检查结果进行综合分析,以及后续治疗方案的敲定使用,对猫传染性腹膜炎的临床诊断和防治具有十分重要的参考价值。
在生态文明建设背景下,北京作为首都城市和超大城市,立足新发展阶段、贯彻新发展理念和构建新发展格局,需将筑牢生态安全屏障作为基本前提,统筹山、水、林、田、湖、草系统治理,促进城市绿色、高质量发展。文章在解析生态安全与民生福祉理论内涵的基础上,提出了包含系统观、区域观、过程观、层次观的首都生态安全观,并将生态安全和民生福祉解构为基本生存、可持续发展和人居品质提升三大需求层级,明确了京津冀区域、市域和中
第五代移动通信系统(The Fifth Mobile Communications System,5G)继续演进的后5G(Beyond 5G,B5G)空中接口和相关波形必须支持多种多样的需求和使用场景,包括用于车辆-车辆和车辆-基础设施系统的最高可达300 km/h的终端速度,以及用于高速列车应用的高达500 km/h,甚至是高速飞行器,卫星通信场景等等。已应用于第四代(The Fourth Mo
人际同步是指个体间拥有共享的频率和状态,即个体与同伴的动作在时间上达成一致,表现出相似的动作模式。作为一种社会互动过程,人际同步能增强个体间的亲社会性,如合作行为、助人行为、亲近感、集体感。以往研究者们一直在尝试探究人际同步影响亲社会行为的表现与机制,但很少涉及到人际同步效应背后的神经机制,人际同步影响亲社会性的神经基础并不清楚。本研究结合近红外光谱成像和超扫描技术,要求被试完成同步任务(与同伴一
为了解决包含虚拟化、容器、物理机的复杂异构网络整体安全风险评估的问题,提出一种基于空间威胁持续链模型STPC的风险评估算法。并分析了异构网络面临的威胁来源、攻击路径和威胁程度,分析其网络接入模式和流量传播特点,重构了初始访问、执行、持久化、权限升级、防御逃逸、凭据访问、发现、横向移动、采集、命令与控制、数据渗漏、恶劣影响12种威胁行为,特别加入了对虚拟化和云计算场景下的威胁行为项。通过STPC模型
采用单因素及响应面优化超声辅助法提取箬竹叶多糖工艺,并对小鼠进行28天灌胃不同剂量箬竹叶多糖后测定肝脏和血清中总抗氧化能力、超氧化物歧化酶含量、谷胱甘肽过氧化物酶含量和丙二醛含量以研究其体内抗氧化活性和以DPPH自由基清除率研究其体外抗氧化能力。结果表明:箬竹叶多糖的最佳提取条件为:料液比1/20(g/mL)、超声时间40min、超声功率400W、提取温度75℃,箬竹叶多糖提取率为5.59mg/g