序列到集合的极大多标签文本分类模型的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ailing770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
极大多标签文本分类(Extreme multi-label text classification,XMTC)任务是从一个极大规模的标签集合中找到与给定文本相关的标签子集的任务。近年来,一些使用一个全连接层来预测所有标签或标签聚类的概率的深度学习模型,在XMTC任务中达到了最先进的效果。但是,它们不能对给定文本预测出相对完整且可变长度的标签子集,因为它们通过一个固定的阈值或者取概率最大的k个标签对给定文本选择正标签。而另一类XMTC任务的深度学习模型是基于序列到序列的,侧重在以序列的形式预测可变长度的正标签。可是,XMTC任务中的标签本质上不是一个序列,是没有顺序的标签集合。这种无意义的顺序反而会在训练中限制序列到序列的模型学习到最优的预测结果。针对上述问题,本文从序列到集合的角度对XMTC任务展开研究,主要工作包括:1)提出了一种自回归模式的、端到端训练的序列到集合模型。该模型通过二分匹配算法和学生指导(Student-forcing)模式训练完全消除了标签无意义的顺序的影响,同时避免了存在于序列到序列模型中的曝光误差,并且模型具有可扩展性,可以根据数据集的特性进行增强。2)针对通用的XMTC任务,在自回归模式的序列到集合模型的基础上,提出了基于最优传输增强的序列到集合模型OTSeq2Set。OTSeq2Set使用语义空间中的最优传输距离来利用XMTC数据集中标签的语义信息,并且使用轻量级卷积模块提升模型的长文本表示能力,使用瓶颈层网络压缩极大标签量级带来的模型参数量。实验结果表明,在四个XMTC公开数据集上OTSeq2Set显著地超过了比较模型。3)针对中医药处方预测这一特定的XMTC任务,在自回归模式的序列到集合模型基础上,根据中医药处方数据集的特性提出了基数预测增强的序列到集合模型。实验结果表明,提出的模型效果显著优于基线模型,存在实际的应用价值。
其他文献
偏二氯乙烯(VDC)单体是生产民品及军工材料的重要有机化工原料,偏二氯乙烯聚合物常用作涂层、薄膜及包装等材料。偏二氯乙烯单体常用的工业生产方法包括氯乙烯氯化法、氯乙烯氢氯化法、1,2-二氯乙烷氯化法和乙烷氯化法等。其中,氯乙烯氯化法在国外因物料消耗高、三废排放多等原因已被淘汰,但国内仍采用这种方法,原因是该方法生产工艺成熟,工艺过程简单,建成投入资金不大;从反应工艺上分析,偏二氯乙烯在1,2-二氯
学位
将酸奶添加到小麦粉中,以馕的感官评分、硬度为指标,通过单因素试验以及响应面试验设计,对馕制作过程中的酸奶、酵母添加量、发酵温度、发酵时间四个因素进行响应面设计分析,以此确定添加酸奶后馕的最佳发酵工艺条件,并对其抗氧化活性及流变特性进行分析。结果表明:酸奶添加量为14.5%、酵母的添加量为0.9%、发酵温度35℃、发酵时间92 min。在此条件下制作的馕,其感官评分为84.5,硬度为3943.38,
期刊
为了考察棕榈油和奶油混合油对馕品质的影响,对不同混合油添加量及不同油脂质量比的馕的感官评分、色差及质构特征值进行检测。结果表明:当混合油添加量为小麦粉质量的8%、棕榈油和奶油质量比为6∶4时,馕的感官评分最高,其色泽和质构品质均最好,表明棕榈油可以取代部分奶油加工馕。
期刊
机械灌注(Machine Perfusion,MP)可显著改善心脏死亡捐献(Donation after Cardiac Death,DCD)等边缘供肝缺血再灌注损伤,并提高供肝活性,从而促进离体肝脏保存与修复,降低肝移植后胆道并发症等风险。灌注液在MP系统与离体肝脏之间循环流动。为了如实反映灌注流量且为避免流量异常变化(如凝血造成的堵塞)等突发事件的发生,MP系统对灌注流量的连续变化进行高精度和
学位
交点孔是飞机装配中的一类关键连接孔,其制孔精度和质量直接影响飞机的使用寿命和飞行安全。传统交点孔加工以钻模为加工标准,配合手工加工,存在加工效率低、加工稳定性差以及易出现位置偏差等问题。数控镗床是目前进行交点孔加工较为先进的技术,通过数字编程技术对加工轨迹进行设计,避免重复加工,降低人为因素的影响,提高了加工效率和稳定性。论文结合工程实际,开展飞机垂平尾对接交点孔镗削精加工质量影响因素研究,分析镗
学位
热熔压敏胶因其环保特性和贴合高效工艺而广泛应用。其常用的主体树脂为苯乙烯共轭二烯烃类(SBC),但其软段为非极性材料且易老化,应用受限。丙烯酸酯类聚合物以其自身结构含有酯基的优点,为解决上述问题提供了机会。因此本文确定其合适的分子结构,并探究研究以其工业化产品为主体树脂构建新型热熔压敏胶配方体系同时确定制备工艺,并与传统热熔压敏胶对比,考察新型热熔压敏胶的性能指标,探究其性能优势,最后结合实际案例
学位
铝合金具有良好的物理和力学性能,在航空制造业中有着广泛的应用。飞机壁板多为铝合金叠层结构,铆接是其最常用的连接方式。自动钻铆技术可以大幅提高铆接的质量和效率。在对铝合金叠层结构进行自动化制孔的过程中,如何减小轴向力、抑制毛刺的产生并控制切屑的形态,是其加工的关键点和难点。钻锪复合刀具作为制孔的执行端,对制孔质量起到关键作用。针对上述问题,开展了钻锪复合刀具的设计与切削参数优化工作。具体研究内容如下
学位
随着时代发展,移动机器人的相关技术发展迅速。球形机器人由于其较好的密封性、运动中的抗倾倒性在危险环境探测、安防巡检等方面的工作上拥有着得天独厚的优势。执行巡检工作时,需要能够有效的检测移动目标,进而执行下一步的避障指令,因此需要一套针对球形机器人的感知方案。由于球形机器人特殊的结构特征与运动特点,研究的主要挑战在于由于滚动导致的图像质量不佳影响检测效果问题以及由于计算资源有限,设计算法需要平衡算法
学位
我国经济发展正由高速度增长转向了高质量发展阶段。在航空业,由于典型零部件构造越来越复杂,对产品制造、装配的质量一致性、稳定性要求也越来越严苛。有的企业主要关注质量检验环节,但质量检验属于事后把关,无法做到事先预防。过程质量控制方法以过程能力分析为手段,实现加工制造过程质量的持续保持或改进,但也存在一定滞后性。数字孪生技术的发展和应用,有效解决了过程质量控制中数据不全及其滞后等问题,使得在线过程质量
学位
研究以小麦粉、马铃薯粉、酵母粉、食盐、鸡蛋和水为主要原料生产马铃薯粉馕的生产工艺,通过单因素和正交试验确定最佳工艺参数。结果显示,当马铃薯全粉添加量为25%,水55%,盐1.3%,酵母0.3%时,马铃薯粉馕感官品质最好,色泽均匀,有马铃薯特有的香气味道,质地均匀,气孔匀称,软硬适中,品质最好。各因素对马铃薯粉馕的影响顺序为马铃薯粉>水>盐>酵母量。
期刊