论文部分内容阅读
科技政策是为了实现国家一定时期的科技任务而制定的基本行为准则。随着科学技术的快速发展,科技政策文本数据逐渐增多,面对如此庞大的科技政策文本数据,如何获得有价值的信息并进行有效管理成为了科研人员亟待解决的问题。本文依托“科技大数据标准化处理与应用系统研发(172110113D)”和“科技大数据综合服务平台”对科技政策的文本分类方法进行了研究与实现。针对科技政策文本分类,提出了SSL-SLHDP+PXG的科技政策文本分类方法。为了进一步提高科技政策分类的准确率,提出了基于WTR-BiGRU的科技政策文本分类方法。论文的主要工作如下:(1)基于SSL-SLHDP+PXG的科技政策文本分类方法根据科技政策分类的特点,将SLHDP(Semi-supervised Labeled HDP)模型与半监督学习结合提出了扩展标记样本方法SSL-SLHDP(Semi-Supervised Learning-SLHDP)。为了弥补XGBoost(eXtreme Gradient Boosting)分类算法超参数过多,无法自动拟合的缺陷,提出粒子群优化改进的XGBoost算法PXG。将扩展标记样本方法与PXG算法结合,提出了SSL-SLHDP+PXG的科技政策文本分类方法。首先采用SLHDP模型生成的主题分布表示科技政策数据集,基于SSL-SLHDP方法对训练集中一些置信度高的未标记样本标记,实现扩展训练集。最后基于扩展后的训练集,训练PXG分类模型,实现科技政策分类。(2)基于WTR-BiGRU的科技政策文本分类方法首先实现了基于双向门控循环单元BiGRU(Bi-directional Gated Recurrent Unit)的科技政策文本分类。由于主题向量分布对文本分类十分重要,将主题特征向量引入BiGRU模型,根据融合的方式不同,提出了改进的两种模型,WT-BiGRU-1和WT-BiGRU-2。针对网络层数增加出现梯度下降问题,引入了残差块结构,提出了一种WTR-BiGRU模型。在科技政策数据集上设计了多组对比实验,以宏平均F1值、微平均F1值、损失率和迭代时间为评价指标,验证了改进模型的有效性和优越性,进一步提高了文本分类的精度和效率。