投诉短文本分类方法和情感分析研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:a306783805
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展和计算机的普及,机器学习、人工智能的兴起,我们的生活、工作方式有了巨大的改变。文本作为互联网最基础的组成部分,如何更有效的组织这些文本信息并对这些信息进行充分管理,同时快速、准确地从中找出用户所需求的信息是当前信息科学技术领域面临的一大挑战。当前有很多地市开通了政府热线,产生和积累了大量的投诉信息,需要计算机辅助自动处理。投诉文本作为短文本来说与传统的短文本相比,信息量会更加密集的同时噪音也会更加稠密,情感词也会比普通的短文本要多的多,情感更加凸显。另外投诉文本因为其时效性的问题还存在先后处理的问题。针对上述问题,本文对经典FastText文本分类方法进行改进,提出了基于word2vec扩展的投诉文本情感词典和PTF-IDF权值计算的PS-FastText中文短文本分类方法。具体的工作如下:(1)针对投诉文本的特殊性,为了及时的解决当前提交的文本中存在的紧急问题,考虑对投诉文本进行情感分析。在综合了效率和资源成本等诸多条件后选择情感词典和机器学习相结合的方法。在将众多基础情感词典去重合并之后,通过word2vec词向量自主学习投诉文本中词与词之间的内在关系并对情感词典进行扩展,构造适用于投诉文本的情感词典。之后结合中文情感词汇本体对情感强度计算进行了一定的合理改良,并通过实验验证了改良的合理性。(2)N-gram处理是FastText 文本分类方法中不可或缺的一部分,能更好的使分类方法获得更多的文本特征。由于计算机设计的先天因素和中文语种的特殊性,n-gram处理对于英文文本有着很好的效果,而当处理中文文本时效果则会大大降低。对于中英文文本来说,n-gram处理均会产生冗余词条,但相对于英文能从冗余词条中学习到大量特征,中文能从冗余中学到的特征少之又少。针对这个问题,本文提出的PS-FastText文本分类方法在 n-gram处理之后,在剔除无意义词之后,创新的通过加入了语法分析的TF-IDF,即PTF-IDF对词条进行权值计算,将高频率且低区分度的词剔除保留高区分度、特征表达能力强的词构建保留词典,之后继续推进到隐藏层继续计算。通过保留词典的构建和低区分度词、无意义词的剔除,分类方法的性能有了一定提升。最后,通过将PS-FastText短文本分类方法与当前较为主流的基于PTF-IDF特征的短文本分类方法、基于word2vec的短文本分类方法以及经典的FastText短文本分类算法进行投诉文本分类实验,验证了 PS-FastText文本分类算法在保证训练效率的同时,有着更好的分类效果。
其他文献
为了缓解机动化快速增长带来的交通拥堵、污染等压力,我国确定了“公交优先”的城市交通发展战略。然而,由于传统规划理念的影响,对交通参与者空间路权的关注不够,造成了小汽
随着科技与旅游的融合,成都双流区设计推出了富含其地方特色的线上双语旅游地图《天府双流智慧旅游地图》,其中所包含的旅游信息为前来双流旅游的中外游客提供了便利。本次翻译实践报告基于《天府双流智慧旅游地图》中的中餐菜名英译项目。首先,简单介绍了本次项目的内容和项目进行的实践意义。接着介绍了笔者的译前准备。通过对中式菜名命名方式的文献综述来进行翻译难点分类,并进行相关术语总结,以及译后的质量保证环节。然后
针摆传动多用于通用传动和高精传动中。通过对摆线轮的组合修形,得到不同的修形齿廓应用于不同的传动情况中,但没有一种摆线齿廓可以同时保证高承载能力和高传动精度。FT传动
随着计算机应用技术的快速发展,企业规模的不断扩大,企业信息管理系统结构复杂化,暴露出了传统信息系统授权模块普遍存在的缺陷:授权管理复杂、授权方式单一、无法对细粒度权
本研究以Si粉、SiO2粉、SiC粉为主要原料,采用无压烧结方法在氮气气氛中制备氧氮化硅及氧氮化硅结合碳化硅陶瓷。通过阿基米德密度测定法、X-射线衍射仪、扫描电子显微镜、数
研究区位于鄂尔多斯盆地三级构造单元伊盟隆起和伊陕斜坡的过渡位。通过对盆地北部构造演化特点的综合分析研究,提出了盆地中生代构造演化为研究区内砂岩型铀矿的形成提供了
身处在互联网和信息化的时代,我们周围每天都会产生大量的信息,伴随着身边的信息量呈爆炸式的形式增长,传统的关系数据库已经不能满足大数据量的处理,在这种信息量的增长趋势
随着钢铁企业市场竞争越来越激烈,钢企将以生产规模向质优价廉的产品管理模式转变,轧钢工艺是控制产品质量和成本的关键环节,不同钢企都在这一环节上进行技术攻关,采用不同的
随着“云计算时代”的到来,市场竞争更为激烈,企业经常采用设置最后期限、有形的奖励等控制性的管理方法来激励员工。在工作中,控制性的组织情景、工作的不确定性等都会导致个体遭受自主需要挫败。因此,员工的自主需要挫败正成为一项普遍的社会心理现象,并逐渐引起管理研究者的重视。在企业管理中,内在动机是员工保持工作热情的源泉。如何提升员工的内在动机,也是当前人力资源管理研究的热点。根据自我决定理论,自主是一项最
鉴于靛蓝分子中羰基与氨基的存在,其分子内部与分子间均易产生氢键,因此从化学还原角度来看,靛蓝还原需要较强的还原剂。保险粉凭借较强的还原能力和较高的性价比成为靛蓝还原首选还原剂,然而,在其使用过程中容易产生大量含硫废水。硼氢化钠还原虽然不会产生环境问题,但常温下还原速率慢,效率低。因此,常常需要外界热能对体系进行升温以及额外的金属盐为催化剂。这些使得还原工艺繁琐,同时升温操作和硼氢化钠的水解放热不利