论文部分内容阅读
互联网的普及与发展使得网络上主观性文本如产品、新闻、社会事件的评论等大量出现。这些主观性文本蕴含着丰富的信息资源,如何对文本信息进行有效地处理和利用,是信息管理面临的一大难题,而文本情感分类技术可以为其提供一条有效的解决途径。文本情感分类技术是对网络上庞大的主观性文本进行自动的情感倾向判别的过程。文本情感分类用于商务智能、电子政务、信息预测等领域可以获取用户兴趣偏好、了解民情民意和对未来金融、股票市场进行预测等,具有重大的应用价值。目前,英文文本情感分类研究已有一定的积累,而中文由于其特殊性,研究相对较少。在此背景下,本文利用机器学习方法对中文文本进行情感分类研究。在对中文文本进行分析和对机器学习方法进行总结的基础上,针对文本情感分类机器学习方法中的文本特征表示、文本特征表示高维性问题和分类模型三个方面展开深入的研究。本文的主要研究内容与创新点如下:(1)构造了针对中文文本的基于依存句法关系的三元组依存关系特征。将非结构化的文本形式转化为机器学习算法能够识别的结构化形式是进行文本情感分类的首要步骤,也是机器学习的文本表示阶段。由于常用中文文本表示方法缺乏词语间修饰关系的语义信息,利用依存句法揭示句子中词语间的修饰关系的特性,将句子中的依存关系转化为文本表示特征项。在研究中文文本依存句法关系的基础上,结合中文语法特点,对原有依存句法树中的结点进行删除与合并,给出了删除与合并结点的算法流程。为了验证三元组依存关系特征的有效性,将三元组依存关系特征的构建方法用于中文评论数据实例中。同时,构造了文本情感分类任务常用的特征表示方法,通过机器学习分类算法将不同特征表示进行分类,将得到的分类准确率进行比较。结果表明,三元组依存关系特征是一种有效的文本表示方法,且在文本情感分类准确率上高于常用的特征表示方法。(2)提出了基于BPSO算法的随机子空间选择性集成机器学习方法。文本特征表示高维性是文本由非结构化形式转化为结构化特征向量空间后常碰到的问题。传统的维数约减方法在特征维数的确定上没有统一的指导。本文利用集成机器学习方法中的随机子空间将高维特征空间划分为若干子空间的特性,将随机子空间用于文本情感分类中,解决了文本特征高维性和特征约减维数难以确定的问题。利用BPSO算法的全局优化搜索能力对随机子空间训练得到的基分类器进行优化选择,构成基于BPSO算法的选择性集成机器学习方法。将所提方法用于中文评论数据,研究了BPSO算法对随机子空间基分类器的优化过程,并对BPSO算法优化选择前后的集成系统的分类准确率和系统差异度进行分析比较。实验结果表明,BPSO随机子空间方法可以有效解决文本特征空间高维性问题提高工作效率,且在一定程度上提高了文本情感分类准确率和集成系统差异度。(3)提出了元学习与深度学习相结合的机器学习分类模型。为了进一步提高文本情感分类准确率,将深度信念网络用于文本情感分类中。深度信念网络有强大的特征学习能力,但在输入结点和网络层数过多的情况下,网络计算量较大,运行时间较长。借助集成机器学习中的元学习思想将深度信念网络作为元学习器的训练方法,BPSO随机子空间方法作为基分类器的训练方法,构造了深度信念网络元学习分类模型,给出了深度信念网络元学习方法的理论框架及算法流程。为了研究元学习对深度信念网络产生的影响,将深度信念网络元学习与深度信念网络作用于中文评论数据,对其分类准确率、运行时间进行比较。结果表明,深度信念网络元学习方法不仅很大程度上缩减了深度信念网络的训练时间,而且能够较大幅度的提高文本情感分类准确率。