论文部分内容阅读
随着互联网的快速发展,网络为人们获取信息、传递信息以及交流情感提供了更多渠道。我们用微博分享自己每天的所见所闻;使用网络进行购物,然后留下评论;出差旅游之前在网上预约酒店,入住之后分享用户体验??这些数据囊括了人们的衣食住行,对消费者、商业组织、甚至政府部门都有巨大的价值。如何高效地从海量数据中挖掘情感信息,成为当前急需解决的问题。机器学习技术为情感分类问题提供了许多方法。尤其是近些年深度学习的发展,为情感分类问题的解决带来了新动力。但仍存在许多不足,有待解决。使用深度学习处理自然语言处理问题首先要把文字转化为计算机可以处理的形式,当前比较常用的是词向量的方式。虽然词向量在许多任务上都取得了优异表现。但是当前大多数词向量训练方法都是基于词语的上下文信息计算词向量。在中文领域,词语的意思还包含在组成它的字之中。本文提出了基于注意力机制的词向量训练方法,在词向量中加入字向量的信息。同时,在加入的过程中考虑不同字的重要程度。最后在相似度计算、逻辑推理、情感分类等任务上,验证该方法得到的词向量具有更加优秀的表示能力。经过多年积累,现有许多不同的情感分类模型,例如支持向量机、卷积神经网络、循环神经网络等等。这些模型基于不同的假设,从不同的角度抽取数据中的知识。为了获得更好的效果,可能将不同的模型进行集成。传统的集成方法在结合策略的选择上常用投票法、平均法、或者学习法。这些方法增加了测试阶段的计算量。本文提出了基于师生网络集成学习方法。先单独训练多个个体分类器,然后初始化一个新的神经网络作为目标分类器。目标分类器的训练过程除了要参考正确类标外,还加入个体分类器的判断信息。通过这种方式,将多个分类器压缩进一个分类器中,在保持原有的性能的同时,花费更少的计算代价。