基于机器学习的文本情感分类研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:liyanxia8521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及与发展使得网络上主观性文本如产品、新闻、社会事件的评论等大量出现。这些主观性文本蕴含着丰富的信息资源,如何对文本信息进行有效地处理和利用,是信息管理面临的一大难题,而文本情感分类技术可以为其提供一条有效的解决途径。文本情感分类技术是对网络上庞大的主观性文本进行自动的情感倾向判别的过程。文本情感分类用于商务智能、电子政务、信息预测等领域可以获取用户兴趣偏好、了解民情民意和对未来金融、股票市场进行预测等,具有重大的应用价值。目前,英文文本情感分类研究已有一定的积累,而中文由于其特殊性,研究相对较少。在此背景下,本文利用机器学习方法对中文文本进行情感分类研究。在对中文文本进行分析和对机器学习方法进行总结的基础上,针对文本情感分类机器学习方法中的文本特征表示、文本特征表示高维性问题和分类模型三个方面展开深入的研究。本文的主要研究内容与创新点如下:(1)构造了针对中文文本的基于依存句法关系的三元组依存关系特征。将非结构化的文本形式转化为机器学习算法能够识别的结构化形式是进行文本情感分类的首要步骤,也是机器学习的文本表示阶段。由于常用中文文本表示方法缺乏词语间修饰关系的语义信息,利用依存句法揭示句子中词语间的修饰关系的特性,将句子中的依存关系转化为文本表示特征项。在研究中文文本依存句法关系的基础上,结合中文语法特点,对原有依存句法树中的结点进行删除与合并,给出了删除与合并结点的算法流程。为了验证三元组依存关系特征的有效性,将三元组依存关系特征的构建方法用于中文评论数据实例中。同时,构造了文本情感分类任务常用的特征表示方法,通过机器学习分类算法将不同特征表示进行分类,将得到的分类准确率进行比较。结果表明,三元组依存关系特征是一种有效的文本表示方法,且在文本情感分类准确率上高于常用的特征表示方法。(2)提出了基于BPSO算法的随机子空间选择性集成机器学习方法。文本特征表示高维性是文本由非结构化形式转化为结构化特征向量空间后常碰到的问题。传统的维数约减方法在特征维数的确定上没有统一的指导。本文利用集成机器学习方法中的随机子空间将高维特征空间划分为若干子空间的特性,将随机子空间用于文本情感分类中,解决了文本特征高维性和特征约减维数难以确定的问题。利用BPSO算法的全局优化搜索能力对随机子空间训练得到的基分类器进行优化选择,构成基于BPSO算法的选择性集成机器学习方法。将所提方法用于中文评论数据,研究了BPSO算法对随机子空间基分类器的优化过程,并对BPSO算法优化选择前后的集成系统的分类准确率和系统差异度进行分析比较。实验结果表明,BPSO随机子空间方法可以有效解决文本特征空间高维性问题提高工作效率,且在一定程度上提高了文本情感分类准确率和集成系统差异度。(3)提出了元学习与深度学习相结合的机器学习分类模型。为了进一步提高文本情感分类准确率,将深度信念网络用于文本情感分类中。深度信念网络有强大的特征学习能力,但在输入结点和网络层数过多的情况下,网络计算量较大,运行时间较长。借助集成机器学习中的元学习思想将深度信念网络作为元学习器的训练方法,BPSO随机子空间方法作为基分类器的训练方法,构造了深度信念网络元学习分类模型,给出了深度信念网络元学习方法的理论框架及算法流程。为了研究元学习对深度信念网络产生的影响,将深度信念网络元学习与深度信念网络作用于中文评论数据,对其分类准确率、运行时间进行比较。结果表明,深度信念网络元学习方法不仅很大程度上缩减了深度信念网络的训练时间,而且能够较大幅度的提高文本情感分类准确率。
其他文献
由于高职院校室内设计实训课程教学环节存在问题,导致学生在毕业后仍需花费大量时间进行实践,如何缩短毕业生的实践时间乃至让学生在毕业后能够直接胜任设计师岗位是目前高职
简要讨论了近年来植物抗病毒基因工程的方法策略,主要包括:植物自身的抗病毒基因策略、来源于病毒的抗性基因策略。干扰素等抗性策略;并分析了其存在问题和发展趋势。
年末岁尾,新冠肺炎疫情彻底打乱了每个人的生活。今年春节大年初二,一场疫情防控的人民战争全面打响!根据疫情防控需要,作为方城县第十五届人大代表、古庄店镇人大主席,我和
期刊
针对雷达实装训练时所产生的效率低、损耗大等问题,设计了一种雷达发射机模拟器故障监控系统。该系统为某雷达模拟器中的一部分,根据故障监控需要完成的任务,对其控制信号、
二维码业务应用是一种新兴业务,本文即对二维码的基本概念、发展状况、业务类别、业务应用等进行了详细介绍,并提出了二维码识读业务应用的实现方案,从体系结构、网元功能、
<正>老年综合评估(comprehensive geriatric as-sess ment,CGA)是近年来在国外广泛应用的,多维角度检测评估老年人健康功能水平的工具之一,老年综合评估从患者的认知、生活能
本文首先对注浆技术进行简要概述,主要涉及其概念和分类。然后对注浆材料进行简要的统述,并提出选择注浆材料的考虑因素。然后通过对楼房病害的分类描述引出来注浆技术在房屋建