论文部分内容阅读
随着大数据时代的到来,电子商务便利了人们的生活,同时随着电商平台的发展,产生海量的用户评论信息。这些评论蕴含着大量产品的真实质量信息、用户使用感受和物流服务效率,因此挖掘这些评论中的关键信息对于店铺厂家的监管至关重要。本文引入多标签文本分类技术从电商评论中提取标签信息,为产品分析和监管提供数据依据。多标签文本分类技术将文本关联到最相关的一组标签集合,这些标签集合可以帮助人们快速分类、搜索以及分析。本文跟进电商评论场景下多标签文本分类的研究前沿与难点:评论数据由于文本过长容易出现语义复杂和信息冗余的特性,如何从文本中提取出有效的特征表示至关重要;产品标签中蕴含丰富的语义信息,如何利用这种信息指导模型进行交互是一大难点;产品标签间存在相互关联,如何建模并利用这种关系也是一大挑战。针对以上研究中存在的难点与挑战,本文的主要工作有:1.针对现有研究未能有效解决长文本中出现的语义复杂和信息冗余的问题,提出了一种基于词间关系的方法。首先通过门控图神经网络提取单词共现信息,再利用双向长短时记忆网络挖掘单词顺序信息,最后使用自注意力机制捕获不同标签的关键词并形成文本特征表示。实验结果表明,该方法在性能上超过基准模型,并通过消融、灵敏度分析和样例可视化验证了各个模块的有效性。2.针对现有研究未能有效利用标签语义信息进行交互的问题,提出了一种基于标签语义的方法。首先通过消息传递机制从标签共现矩阵中学习到共现信息去丰富标签向量的表达,然后通过自注意力机制有监督地从文本中学习到每个标签分别的关键词,结合标签语义注意力主动关注每个标签的关键词,最后结合这两种关键词生成每个标签的文本特征表示。实验结果表明,该方法在性能上超过基准模型,并通过消融实验和可视化验证并展示了各个模块的有效性。3.针对现有研究未能有效建模并利用电商评论中标签间关系的问题,提出一种基于标签选择机制的方法。首先选取出当前最具判别性的标签,并使用模型复用机制去利用标签间的关系,最后依据机制的使用效果集成所有的分类器,并影响判别性的标签的产生。实验结果表明,方法在性能上超过基准模型,并通过灵敏度分析验证了各个模块的有效性。