少样本条件下的中文科技领域命名实体识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yaraksuper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献中包含了大量信息,如研究对象、研究方法和对照方案等,而这些信息是从事科研活动的人所需要的。从科技文献中提取出名词和短语等信息可以归类为自然语言处理中命名实体识别的任务。传统的命名实体识别采用深度学习的方法,通过对大量标注数据的学习,来达到很高的准确率。但是在中文科技领域,标注数据集非常稀缺,这严重阻碍了该领域命名实体识别的发展。本文立足于中文科技领域实体识别的特点,在少样本的条件下开展实验,并使用多个方案提高了命名实体识别的性能。目前,命名实体识别的主流模型在应对缺少样本的情况时,表现比较差。针对这一问题,本文引入了迁移学习的思想对主流模型进行改进,这一改进的重点在于额外的预训练过程。在预训练阶段,模型可以使用大量目标类别以外的实例进行训练,这一阶段学习到的知识有助于样本数较少的类别的训练。实验证明,这一改进方法能有效提升少样本条件下命名实体识别的准确率。另一个改进方案是基于原型网络进行改进。原型网络的本质是一个前馈网络,作用是为每个类别都构建了一个可用于分类的原型。实验结果表明,引入原型网络后大多数类别的实验表现有明显提升,有的类别的F1值甚至能提高10个百分点以上。最后,迁移学习和原型网络还可以结合起来,使准确率进一步提高。在少样本的条件下,目标类别的句子数被设置为20。这是比较严格的实验条件,但是经过迁移学习和原型网络的改进,大多数类别的识别结果都达到了良好的水平。迁移学习的预训练阶段和原型网络均需要额外的语料库作为辅助数据,为此,本文专门构建了一个科技领域语料库。这些数据来源于知网,并经过统计方法处理。实验证明,辅助数据的引入提高了模型的识别效果。科技领域语料库的构建,为中文科技领域的研究提供了可用的资源。同时,构建一个领域相关的语料库的方法为提高少样本学习的性能提供了新的思路。
其他文献
随着信息化进程的加快,通信技术的更新迭代,现有光通信系统中的单光纤容量增长即将到达瓶颈。为满足日趋增长的传输容量的需求,在2μm波段发展新的光通信系统成为了拓展通信容量的方向之一。而目前大多数2μm波段器件的研究尚处于起步阶段,性能上有较大提升空间。尤其是2μm波段的微环滤波器在实际应用中仍存在自由光谱范围(Free spectrum range,FSR)较小,滤波性能不够理想等不足。同时微环谐振
学位
目的:探讨妊娠期慢性应激导致子代雄鼠海马病理改变及其抑郁样行为的作用机制。实验一:方法本实验采用40只成年雌性和20只成年雄性C57/BL6J小鼠以雌雄2:1的比例在19:00进行合笼,第二天07:00查阴栓,查到阴栓后将其进行单笼饲养,为怀孕第一天。正常饲养一周后,随机选取20只孕鼠进行妊娠期慢性应激(chronic stress during pregnancy,CSDP)。应激方式包括:①禁
学位
无线通信的两大评价指标包括有效性和可靠性,由此衍生出信源编码与信道编码理论。传统的信源信道编码独立设计方案虽然易于设计,但会有明显的门限效应。因此,将信源编码与信道编码进行联合设计会取得更好的整体性能。本文针对通信资源稀缺的图像传输场景,以重构图像的峰值信噪比为提升目标,对信源编码与信道编码进行了深入研究。主要包括两个方面,一是针对具体场景选择适合的信源、信道编码方式并进行优化;二是在此基础上,通
学位
移动数据爆炸式增长的需求给现有的无线射频通信技术带来较大挑战,在此背景下,无射频干扰且可以实现高速传输的可见光通信(Visible Light Communication,VLC)技术成为研究热点。VLC系统中发光二极管(Light Emitting Diodes,LEDs)作为发射端具有限制带宽这一缺点,容易造成码间干扰,而单极性正交频分复用(Unipolar Orthogonal Freque
学位
随着自动驾驶技术的迅速发展,无人车辆将逐步进入商业市场,由最初的只在专有道路内行驶逐渐向公共道路过渡。目前的智能交通系统着眼于车辆协调使用公共资源,提高路网内行车效率、能耗和安全性。这是一个极具挑战性的变革,需要状态感知、无线通信和控制理论的相互协调统一。十字路口的车流量大,路况复杂,已成为现代交通系统的交通瓶颈。当前针对十字路口车辆调度的研究非常多,但往往假设有可靠的通信、计算和控制,无法实现真
学位
目的系统性红斑狼疮(Systemic lupus erythematosus,SLE)是一种由于免疫系统受损导致的多器官障碍的复杂疾病。DNA损伤诱导转录子4(DNA damage inducible transcript 4,DDIT4)基因与细胞应对各种压力源(如缺氧,能量消耗等)的反应有关,最突出的是其能抑制哺乳动物雷帕霉素靶点的活性,并因此参与调控多种细胞过程。最近的研究结果表明DDIT4
学位
2020年以来,第五代无线通信标准化工作结束并开始在全球部署。随着爆发式增长的智能设备数量,针对第六代(Sixth Generation,6G)移动通信研究系统也已经开始。作为巨连接的典型应用场景,物联网必将与6G网络深度融合,成为未来的重点研发领域。当前物联网的应用场景很多,如农业、智能家居、医疗保健、智能穿戴、智慧城市等等。然而,海量的用户接入给现有通信系统带来了许多挑战:一方面,随着物联网用
学位
片上微纳光学传感器具有低探测限、高灵敏度、实时检测、无需荧光标记等优点,广泛应用于疾病诊断、食品安全、传染病防控等领域。这类传感器将受到的微弱折射率扰动转化为易于检测的波长移动等信号。然而,大部分基于波长移动的片上微纳光学传感器易受外界环境干扰,诸如温度与外部的折射率扰动等,难以实现高精度的检测。针对该问题,本论文设计了一种亚波长光栅微环谐振器,通过微环中的模式分裂效应形成自参考检测。分裂的模式处
学位
目的:强直性脊柱炎(Ankylosing spondylitis,AS)是一种慢性免疫介导的炎症性疾病,其特点是慢性炎症和新骨生长,通常伴有联合韧带骨赘形成和关节强直,导致患者活动受到限制。目前,AS的发病机制仍不清楚。母系表达基因3(Maternally expressed gene 3,MEG3)既是母系表达的lnc RNA,也是一种位于染色体14q32的肿瘤抑制基因。多种研究表明异常表达的M
学位
随着移动互联网的高速发展,移动设备的快速普及为网络带来巨大移动数据流量。据统计,目前网络中70%的移动数据流量来自视频传输。随着技术和应用的进一步发展,如果所产生的视频流量全部通过核心网传输,势必对核心网造成巨大传输压力。从视频媒体平台的角度出发,视频点播成为重要营收业务,然而视频点播的传输为媒体平台带来巨大传输带宽成本。因此如何减少视频流量是网络运营商和内容提供商的关切问题。在视频点播场景下,通
学位