论文部分内容阅读
[目的]使用预训练语言模型进行长文本的分类的过程中,目前受到预训练语言模型输入长度的限制而无法有效利用长文本中的所有文本信息。[方法]为在不改变预训练语言模型的条件下充分获取长文本内容特征,设计了依据自然文本中存在的标点符号进行分句并按次序输入预训练语言模型的分类模型。提出了平均池化法与注意力机制加权法对分类特征向量进行压缩编码并在多个预训练语言模型上进行实验。[结果]相比于直接截断文本内容,使用句向量压缩的模型准确率上最多相对提升了3.74%。在两种数据集上融合注意力机制模型的F1-score相比基线模型分别平均提升1.61%和0.83%。[局限]在部分预训练语言模型上提升效果不显著。[结论]实验证明,在不改变预训练语言模型架构且保持原有文本不变的条件下,结合分句内容信息的文本分类模型在不同预训练语言模型上能够有效提升分类效果。