主题模型与深度学习结合的科技政策分类方法研究与实现

来源 :石家庄铁道大学 | 被引量 : 2次 | 上传用户:dxc1989120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技政策是为了实现国家一定时期的科技任务而制定的基本行为准则。随着科学技术的快速发展,科技政策文本数据逐渐增多,面对如此庞大的科技政策文本数据,如何获得有价值的信息并进行有效管理成为了科研人员亟待解决的问题。本文依托“科技大数据标准化处理与应用系统研发(172110113D)”和“科技大数据综合服务平台”对科技政策的文本分类方法进行了研究与实现。针对科技政策文本分类,提出了SSL-SLHDP+PXG的科技政策文本分类方法。为了进一步提高科技政策分类的准确率,提出了基于WTR-BiGRU的科技政策文本分类方法。论文的主要工作如下:(1)基于SSL-SLHDP+PXG的科技政策文本分类方法根据科技政策分类的特点,将SLHDP(Semi-supervised Labeled HDP)模型与半监督学习结合提出了扩展标记样本方法SSL-SLHDP(Semi-Supervised Learning-SLHDP)。为了弥补XGBoost(eXtreme Gradient Boosting)分类算法超参数过多,无法自动拟合的缺陷,提出粒子群优化改进的XGBoost算法PXG。将扩展标记样本方法与PXG算法结合,提出了SSL-SLHDP+PXG的科技政策文本分类方法。首先采用SLHDP模型生成的主题分布表示科技政策数据集,基于SSL-SLHDP方法对训练集中一些置信度高的未标记样本标记,实现扩展训练集。最后基于扩展后的训练集,训练PXG分类模型,实现科技政策分类。(2)基于WTR-BiGRU的科技政策文本分类方法首先实现了基于双向门控循环单元BiGRU(Bi-directional Gated Recurrent Unit)的科技政策文本分类。由于主题向量分布对文本分类十分重要,将主题特征向量引入BiGRU模型,根据融合的方式不同,提出了改进的两种模型,WT-BiGRU-1和WT-BiGRU-2。针对网络层数增加出现梯度下降问题,引入了残差块结构,提出了一种WTR-BiGRU模型。在科技政策数据集上设计了多组对比实验,以宏平均F1值、微平均F1值、损失率和迭代时间为评价指标,验证了改进模型的有效性和优越性,进一步提高了文本分类的精度和效率。
其他文献
通过盆栽试验研究钼硒配施对水培小白菜钼硒形态及硒价态的影响。结果表明:施硒增加了小白菜地上部及地下部醇溶态和水溶态钼含量,降低了小白菜地上部及地下部盐溶态及醋酸溶
肺癌又称原发性支气管肺癌,是指源于支气管黏膜或腺体的恶性肺肿瘤。肺癌是西医病名,中医学无此病名,散见于"肺积"、"咳嗽"、"胸痛"、"咯血"等文献记载中。
运用Horwitz等人的外语课堂焦虑量表,先对贵州三所高校的616名大学生进行焦虑初测,后对贵州某高校120名大学生(含参加系统脱敏实验的60名被试)外语口语课堂焦虑实施研究,用系
在一定温度及电流密度下对Cu/SAC305(Sn-3.0Ag-0.5Cu)/Cu焊点进行不同加载时间的电迁移时效试验。分析了电-热耦合作用下,焊点界面IMC的生长机理及界面近区元素扩散特征。结
目的:为明确青年军人基础心率(BHR)和基础血压(BBP)的分布、正常范围,窦性心动过缓(SB)、显著性窦性心动过缓(OSB)、高血压的现患率及相关因素.方法:采用普查法测量某省某军
本文阐述了国内外染料工业发展的新动向,指出了国外染料市场趋势和发展新特点:染料企业重组已趋平稳和进一步确立我国作为世界染料生产和供应中心的地位,在国际上设置"技术壁
受多种因素影响,长期以来,教师培训一直没有走出受培目标群体的漠视和教育行政机构的强制双重困境。教师群体对教师培训的漠视主要表现为:漠视教师培训的重要性、不积极争取
回顾20世纪世界历史,追究20世纪发展演变的根源,我们探测到的不是别的,正是民族主义的底蕴。凤云聚汇的20世纪在整体化、一体化、全球化的发展过程中模塑了民族主义,而民族主义则
“三个代表”思想中,党代表先进文化的发展方向这个“代表”,如何在大众传媒的工作中得到体现,是一个现实的研究话题。传媒是一种社会行业,不是党政机关,如何认识传媒与先进文化的
民营银行作为新型金融机构,其经营情况与发展前景备受瞩目,在近5年的发展历程中,一面借助互联网金融优势迅速成长,一面接受强监管环境对财务风险的考验。民营银行财务风险主