基于句式规则与机器学习的评论型文本情感分类方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:thiscf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类是指通过挖掘和分析文本中的观点、看法、情绪等主观信息,对文本的情感倾向做出类别判断。各领域评论信息呈阶梯式增长,为企业、用户参考评论信息对未来选择做出更加合理的判断提供依据。本文针对电商评论型文本进行文本情感分类研究。主要从三方面入手,一是基于情感知识的情感倾向性判定;二是结合情感知识与机器学习算法构造最优情感分类器;三是基于深度学习网络模型的情感分类研究。首先,针对长评论型文本的情感倾向性问题,提出了一种新的基于位置权重参数调优及句式情感计算规则的方法。该方法将文本分解为一组子句,即将其划分为不同的部分并分配相应的位置权重参数,以情感词汇为基础计算情感得分,由实验得出最佳权重参数。接下来对文本中的长句采用新的情感计算规则,根据句式的不同归纳总结出四类关联词,并分配相应的分数,将权重调优实验所得最佳位置权重参数与句式规则算法相结合,总结出情感计算公式,依次判定各评论文本所得情感分数。实验表明,该方法要优于同类算法的准确率。然后采用机器学习算法与情感知识结合,构造最优情感分类器。在特征提取时,使用所有词和信息量大的双词搭配一起作为特征,使用卡方统计的方法,经过测试找到最优阈值。使用scikit-learn进行分类任务,将得到的特征词组作为独立属性输入到各分类器中。同时将基于情感知识算法所得评论数据的情感得分作为特征经归一化后融合到构建好的各分类器的特征矩阵中,经训练得出最优情感分类器并存储起来。最后,在增大数据集的基础上,使用深度学习算法进行情感分类任务。在预处理过程中,本文构造了One-hot MLSTM、Character MLSTM和Word MLSTM三套框架,测试one-hot、字向量和词向量三种预处理方式对模型分类的有利性,验证在深度学习情感分类中分词存在的必要性。由实验结果可知,字向量的分类准确率更高。并构建了MLSTM+Self-Attention的网络模型,即多层长短时记忆网络和自注意力机制的模型。用Keras构造和训练一个多层LSTM模型,然后在特征向量中加入自注意力机制,对权重系数大的信息给与关注。同时与其他网络模型做多组对比实验,结果表明该模型较稳定,情感分类准确率最优。
其他文献
人文性特征突出的语文学科教学,散文与古诗文等体裁丰富,凝聚了中国传统文化。将"文化传承与理解"纳入教学目标,不仅能够拓展情感态度与价值观的教学目标容量,将其与知识技能及方法过程教学目标放在同等重要地位,更有利于推动学生的全面发展。教师是学生养成文化理解与传承素质的媒介,应当积极转变引导者与组织者等角色,让学生在轻松和谐的氛围中,扎实学习语文知识与传统文化精髓。
知识经济时代发展的根本是人才,企业人才的培养不仅要从岗位实践来推动,也要通过培训来推动,为此企业需要做好员工的培训管理工作。当前,很多企业在员工的培训管理工作中还存在着一定的问题,需要企业加以关注并采取有效的措施提升培训的有效性。
年轻干部是党的事业接班人和生力军。本文以年轻干部成长成才为切入点,通过持续加强党性锻炼,不断提高综合能力水平;优化干部队伍结构,释放年轻干部成长空间;齐抓共管群策群力,形成年轻干部培养合力等措施作为年轻干部成长成才着力点,为企业提供坚强组织和人才保证,助力企业高质量发展。
辅导员作为新时代高校教育管理队伍的重要力量,其职业能力水平直接影响大学生思想政治教育效果和高等教育质量。习近平总书记对年轻干部提出的"七种能力"为高校辅导员职业能力发展指明了方向。新时代辅导员职业能力提升要从整体队伍建设和个人能力培养两个方面下功夫,做好回归德育本位、优化团队结构、建立专业化培训机制的整体培养和着眼时代特点、专注能力提升、聚焦交流创新的个人培养。
近年来,随着互联网技术的蓬勃发展,电子商务迅速崛起,电子商务对传统的实体销售产生了巨大的冲击。电子商务突出优势就是利用互联网增加贸易机会,大大地降低了贸易成本,节约了人们的时间,提高了贸易效率。电子商务极大地改变了传统的商务模式,带动了经济结构的变革。本文为主要销售瑜伽类服饰商品的公司设计并实现一个B2C模式的在线销售平台。目前,该公司因为在管理和服务工作上存在的一系列问题,尚不能保障销售团队的工
随着各类算法的出现以及硬件设备的不断更新换代,深度学习方法在计算机视觉领域占据了越来越重要的地位。深度学习中的卷积神经网络能模拟大脑视觉系统对视觉信号的分层处理机制,在二维图像领域获得了极高的识别精度。而3D传感器和相关软件的发展使得越来越多的图像数据开始以三维数据的形式呈现,根据数据形式的不同,相关的研究方向也是不同的。常见的三维数据形式有体素、多视图和点云等,其中三维点云这种数据形式能较好的反
食道癌(esophageal cancer,EC)是一种高度侵袭性的人类肿瘤,由于其早期症状不明显且缺乏有效的早期诊断方法,给食道癌的治疗带来严峻挑战。分子靶向治疗为探索食道癌的早期诊断和治疗评估提供了一种新思路。食道癌发病机制复杂,至今尚未有理想的高特异性和敏感性的生物标志物应用于该病的早期诊断。筛选更多更有价值的食道癌生物标志物是一个亟待解决的问题,对食道癌早期诊断具有重要意义。本研究主要通过
新课改的深入落实进一步推进了我国高中英语阅读教学质量的提高,教学评一致性逐渐走进了人们的视野,受到了教学者的广泛关注。教学评一致性是一种全新的教学理念,将教学评一致性应用到高中英语阅读课中具有深远的战略意义。详细阐述教学评一致性在高中英语阅读课中的实践,希望教学工作者能从中获得启发。
行人再识别的任务是在无重叠的视频监控网络中将一个或一组需要查询其中行人身份的图像与图库中大量候选人图像相比对,根据相似程度来识别待查询图像中行人的身份。其基本假设为:行人图像的捕获在相对较短的时间内完成,衣服和身体的形状没有太大的变化,可以用作识别身份的提示。本课题的难点为:(1)同身份行人在视图中有显著的变化;(2)输入图像较小,面部特征难以应用;(3)测试集相对于训练集处于完全开集识别状态,应