【摘 要】
:
随着信息技术的发展和智能时代的到来,全球信息储量呈现指数级增长的趋势。短文本作为信息交互的重要载体,尤其活跃在用户量巨大的社交网络和日常评论中。这些非结构化的短文本包含很多有价值的信息,手动提取这些信息需要复杂的工程设计并且代价非常昂贵。因此,采用机器学习的方法对互联网中存在的大量未标记的短文本进行标注,以及如何高效地的组织和管理短文本数据,已经成为当前自然语言处理(NLP)任务中研究的热点之一。
论文部分内容阅读
随着信息技术的发展和智能时代的到来,全球信息储量呈现指数级增长的趋势。短文本作为信息交互的重要载体,尤其活跃在用户量巨大的社交网络和日常评论中。这些非结构化的短文本包含很多有价值的信息,手动提取这些信息需要复杂的工程设计并且代价非常昂贵。因此,采用机器学习的方法对互联网中存在的大量未标记的短文本进行标注,以及如何高效地的组织和管理短文本数据,已经成为当前自然语言处理(NLP)任务中研究的热点之一。目前,基于深度学习的预训练语言模型已被证实可以有效地提升文本分类的效果,其基本思想是从大量未标记的文本中对语言模型进行预训练并且通过监督的下游任务进行微调。但是,这些模型需要大量可靠的数据以及工业级别的计算机资源,这就限制了其在资源有限的环境中使用。此外,与长文本相比,短文本分类面临着特征词少、用词不规范等难点。因此,短文本分类一般在预处理、文本表示、分类器的构建等环节中进行优化和改进,以提高分类速度和精度。基于上述的需求和问题,本文主要针对一种轻量级的半监督短文本预训练分类方法进行研究。首先,通过变分文档模型对大量未标记短文本进行预处理,提取文本数据中隐变量的概率分布特征,然后将预训练模型的内部状态作为下游分类器的特征输入。作为生成模型的变种,在数据和计算量有限的情况下,该方法在短文本分类任务中取得了具有竞争力的优势。但是已有模型中存在尚待优化的一些问题。基于这些问题,利用DPCNN和Free Bits技术进行改进。实验结果表明,改进后的模型比原模型在短文本分类任务中取得了较好的实用效果。
其他文献
功率分配器作为微波接收、发射和频率合成系统中的重要组成部分,广泛应用于相控阵雷达、多路中继通信机等微波设备中。传统的利用传输线实现的功率分配器,往往无法满足尺寸和性能上的要求。随着CMOS工艺的发展,片上系统的发展瓶颈得以突破。采用CMOS工艺实现的功率分配器可以使尺寸大大降低,满足低损耗、高集成的设计要求。本文基于SMIC 40nm CMOS工艺,创新性设计和研究了超宽带的CMOS多路功率分配器
压电陶瓷作为一种力-电转换功能陶瓷材料,常用于制造换能器、滤波器和能量收集器等电子元器件。由于环保的要求,人们希望用无铅陶瓷逐渐取代铅基陶瓷。钛酸铋钠(Bi0.5Na0.5)T
随着电子设备和微波通讯的飞速发展,电磁污染和通信安全问题日趋严重,亟待解决。高性能吸波材料是降低电磁污染、提高通讯安全的重要手段之一。此外,吸波材料是实现武器装备
光学滤波器通常情况下都是依据其频域特性进行滤波,这与电滤波器有着很大的不同,这种现象是由于光的相干性因素造成的。在通常情况下,光延迟后再进行叠加会产生光的干涉现象,而多模光纤中存在不同的模式其本身也是光的干涉现象所产生的结果。而且,采用分光和光延迟线的结构一般都存在着损耗大、延迟线变化长度较大等问题。依据多模光纤所独有的模式色散效应能够使光信号产生延时,我们以此提出了基于多模光纤的模式色散效应的光
随着信息技术的发展,数据规模急剧增长,如何高效的从海量图像数据中检索出相似的图像,已经成为图像检索领域的研究热点。作为近似近邻搜索的重要代表,哈希学习(Hashing Learning)通过学习图像的二进制编码表示,显著减少了图像的存储和查询开销,从而应对大规模图像数据中的检索问题。基于深度学习的哈希算法已经成为哈希学习的主要研究方向,本文主要针对深度监督哈希进行研究,具体工作可以总结如下:1.考
长周期光纤光栅具有低后向反射、低串扰、低插入损耗、体积小、兼容于光纤和制备工艺简单等优点,在光纤通信系统中被广泛应用。长周期光纤光栅能够激励基模向同向传输的高阶模耦合,近年来,为了实现模分复用系统中的模式转换,基于少模长周期光纤光栅的模式转换方法得到极大的关注和发展。论文基于光纤光栅全矢量耦合模理论,针对基模HE11到高阶纤芯矢量模式(TE01、TM01和HE21)的转换特性进行了研究,主要内容如
人类发展到今天当他们在对抗大的困难或险阻的时候,越来越重视合作,因为只有合作才能够达到整体效用最大化,从而克服困难取得成功。文章以二人囚徒困境型博弈为出发点,先主要
模糊测试是通过不断对样本进行变异,然后将变异后的样本作为程序输入,通过观察程序是否产生异常来实现对程序的测试。由于其无需对程序进行深入分析,通用性较好,在工业界中被广泛使用。目前模糊测试工具主要是以覆盖率信息作为反馈,采用遗传算法辅助样本生成,以达到不断生成更优质样本的目的。最终实现代码覆盖率的提高,进而触发程序中潜在的漏洞。然而基于覆盖率的控制流信息仅能被遗传算法用作样本筛选,难以指导对样本的修
煤矿开采深度进入千米,微裂隙渗水、透水成为新的堵水难题。立井井壁在高地应力、高渗透压作用下,众多小于0.1mm微裂隙渗流效应加大,成为井筒涌水量增高的主要原因。超细水泥浆液因其绿色、低成本、粒度小成为微裂隙堵水的主要注浆材料,但纯超细水泥浆液又常因粘度大、析水率高,很难达到理想的注浆效果。超细粉煤灰加入超细水泥浆液中可以增强浆液的流动性,纳米碳酸钙可以发挥纳米材料在水泥基复合材料中的晶核作用,改变
近年来,人们对于高分子复合材料的制备、使用以及回收有了越来越高的要求。因此,高分子复合材料是否可以无害处理或重复利用成为了大家关注的焦点之一。高分子同质复合材料(S