高维有序分类在不平衡文本情感中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:houjhz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的增大和数据类型的丰富,近年来基于文本数据的情感分类成为重要研究方向。越来越多学者的研究着手于探索中文文本与其蕴含的情感之间的关系,而中文文本数据通常都是高维(即p>n)的,且文本所蕴含的情感具有多样性、有序性、分布不平衡性等特点。传统的有序分类方法要求解释变量个数小于样本个数,因此在文本情感分类中并不适用。为了解决文本情感分类的问题,本文在连续比例模型的基础上,针对文本标签分布的非平衡性,使用了SMOTE(Synthetic Minority Oversampling Technique)方法平衡样本,针对高维数据,加入了能够有效压缩系数的SCAD(Smoothly Clipped Absolute Deviation)惩罚函数,并针对连续比例模型易受噪声影响的特点,使用了 Bagging和Boosting的集成算法,建立了 SMOTE+集成算法的SCAD惩罚的连续比例模型。为检验模型效果,第一,本文将使用SMOTE算法的带有SCAD惩罚的连续比例模型同带有L1和MCP惩罚的模型进行对比。在模拟中,本文考虑了两种自变量相关结构和样本量对模型结果产生的影响。模拟结果表明,本文提出的SMOTE+SCAD惩罚的连续比例模型明显优于未加SMOTE算法的和L1惩罚的连续比例模型,这证明了经SMOTE平衡后的数据具有更优良的性质,SCAD方法也具有更优的降维效果。第二,本文将上述模型作为基模型,使用了 Bagging和Boosting的算法集成,提高了模型的稳健性和分类效果。另外,本文将使用SMOTE的带有SCAD惩罚的连续比例模型应用到美团评论文本的情感分类中,经文本预处理、分词去停,词向量建立,将文本数据转化为结构化数据,再使用SMOTE+SCAD的连续比例模型及其集成模型,结果表明该模型具有良好的降维效果,并且有良好的预测效果。
其他文献
20世纪60年代以来当代艺术迅速发展,远远超出了既有的艺术理论体系所能容纳的范围,饱受争议和批评,丹托的艺术哲学应运而生。作为西方学术界中较早对当代艺术创作实践做出回应的艺术哲学家,阿瑟·丹托(ArthurC.Danto)的理论与当代艺术之间有着密切的联系。丹托的艺术哲学思想一方面延续和发展了黑格尔关于艺术史的思考,另一方面从分析美学中获得了建构性的契机。他独树一帜地提出了艺术界理论,并对黑格尔的
学位
目的:探讨胃肠减压联合生长抑素治疗对恶性肠梗阻患者免疫炎症及肠黏膜屏障的影响。方法:选取64例恶性肠梗阻患者作为研究对象,按照治疗方法的不同将患者分为对照组(n=30)和观察组(n=34)。对照组给予对症治疗和生长抑素治疗;观察组在对照组治疗基础上给予胃肠减压治疗。比较两组患者临床疗效、临床症状改善情况、炎症因子、T淋巴细胞亚群水平、肠黏膜屏障功能及不良反应发生情况。结果:观察组治疗总有效率为94
期刊
卢沟桥的烽火揭开了全面抗战的序幕,炮火的洗礼震醒了沉睡的四万万同胞,旧中国在涅槃中走向新生,新文学的面貌也发生了巨大的变化,文人们自觉担负起挽救民族危亡的历史使命。作为文坛的领袖之一,茅盾是最早倡导抗战文艺以抵御侵略的重要作家,以高昂的姿态和饱满的热情投入到创作之中,鼓舞仁人志士的抗日斗争。在深重的民族危机面前,国民政府战略性向西迁移,与之相伴随的是,政府主导下大批的工厂、学校、医院、各组织团体和
学位
世界各国发展经验表明,消费结构服务化对经济增长率可能既具有正向影响又具有负向影响,二者之间存在潜在的非线性关系。理清消费结构服务化与经济增长率之间的关系,并研究其作用机制,能够为各国合理推动消费结构和产业结构升级提供相关参考。基于此,围绕消费结构服务化、“鲍莫尔病”和经济增长的主题,本文首先进行了理论模型分析。结果显示:消费结构服务化与经济增长率之间存在倒U型关系。人力资本增进型消费结构在一开始有
学位
互联网的发展极大地改变了人们的生活,但网络侵犯版权的问题随之而来,网络版权问题逐渐成为热点话题。安得鲁·默里教授的《信息技术法:法律与社会》一书中通过大量具体案例对信息社会中诸多问题进行讨论。因此,本论文选取该书中有关网络版权一章进行英汉翻译实践,并做相应翻译报告。多数译者在翻译的时候仅仅关注到单词、句子的意思,而忽视了译文的整体性。连贯是语篇一大重要的特点。在翻译的时候,除了要确保信息的准确性外
学位
20世纪80年代,西方翻译研究开始“文化转向”,翻译研究的视野从语言层面拓展到文化层面。操控学派的代表人物,安德烈·勒菲弗尔(André Lefevere,1946-1996)提出了改写理论。他认为翻译是一种“改写”,身在一定社会、文化环境中的改写者往往会对原作进行一定程度的加工和调整,以使其与改写者所处的社会时期的主流意识形态和诗学形态相符。他的理论为翻译研究提供了崭新的视角,具有重要的历史地位
学位
2008年以来,央行多次实施宽松的货币政策来应对外部冲击和国内经济周期性下行的压力。然而,与宽松政策相悖的是,中国经济增长速度自2010年之后,连续六年出现下降。直到2017年,在外部需求的回升刺激下,才小幅提高,但2018年,经济增长又再次下行。与此同时,受房地产价格上涨所引发的居民住房贷款快速提高的影响,我国家庭部门的债务规模不断膨胀。由于家庭债务规模变化会引致家庭居民消费行为的变化,而宏观经
学位
空气污染,特别是PM2.5污染问题,越来越受到人们以及众多学者的关注。PM2.5浓度不仅影响到人类的日常生活环境,还对社会未来经济发展产生了重要的直接或间接的作用,因此,研究PM2.5浓度水平,探究其与气候条件之间的关系,并对其进行有效预测是具有一定的现实意义的。本文拟采用动态半参数因子模型对PM2.5与气候变量之间的关系进行研究。然而,该模型原本的估计方法存在一些缺点,例如涉及大型矩阵的求逆与特
学位
目的:探讨水罐疗法联合白头翁汤灌肠对溃疡性结肠炎(UC)患者Th1/Th2免疫平衡及肠黏膜屏障功能的影响。方法:选取2020年2月~2022年5月期间湖南中医药大学第一附属医院收治的UC患者100例。根据随机数字表法分为对照组(n=50)和研究组(n=50)。对照组患者接受白头翁汤灌肠,研究组在此基础上接受水罐疗法。对比两组疗效、中医证候评分、Th1/Th2免疫平衡及肠黏膜屏障功能变化情况。结果:
期刊
融资约束是制约企业内生潜力发挥的重要原因,“融资难,融资贵”问题依然突出。央行往往会通过调整货币政策,以改变微观主体的外部融资环境,影响企业端资金供求关系,从而促进实体经济健康发展。货币政策实现调控的一般过程是“货币政策-传导机制-实体经济”,也就是说,货币政策能否达到预期经济调控目标,在一定程度上取决于传导机制的有效性。以往的研究表明,我国货币政策主要传导渠道为信贷渠道和利率渠道,即货币政策通过
学位