【摘 要】
:
随着数据挖掘和云服务等智能技术的飞速发展,互联网中日益增长着大量的数据信息,其中包含了大量的文本数据,这些数量庞大的文本数据蕴含着巨大的社会价值。但是,由于日常生活
论文部分内容阅读
随着数据挖掘和云服务等智能技术的飞速发展,互联网中日益增长着大量的数据信息,其中包含了大量的文本数据,这些数量庞大的文本数据蕴含着巨大的社会价值。但是,由于日常生活中的文本信息大都以非结构化的形式存在,使得计算机无法高效地处理这些数据,进而使得提取到的有价值的信息很少。命名实体识别是一种可以从非结构化的文本中抽取结构化信息的智能信息处理技术,在自然语言处理领域中具有关键性的作用。本文的研究内容主要是对于提升命名实体识别模型性能进行的探索,重点研究面向中文语料的命名实体识别技术。本文的研究工作主要包括:(1)设计并实现了一种基于Bi LSTM-QRNN-CRF的中文命名实体识别模型。通过研究和分析近年来命名实体识别广泛应用的长短期记忆网络模型(LSTM)、双向长短期记忆网络模型(Bi LSTM)和双向长短期记忆网络-条件随机场模型(Bi LSTM-CRF),在此基础上设计了基于Bi LSTM-QRNN-CRF的中文命名实体识别模型,该模型丰富了输入数据的特征信息,进一步提升了识别效果。该方法采用了应用最广泛也是最成熟的Bi LSTM-CRF模型作为基础模型,引入了准循环神经网络(QRNN)增强模型输入时的特征信息,并且由于QRNN模型具有并行计算的特性,并没有增加过多的训练时间。实验结果表明,该模型的识别效果得到了一定程度的提升。(2)设计并实现了一种基于多神经网络协同训练的中文命名实体识别模型。随着命名实体识别技术应用的领域越来越广泛,识别的对象种类越来越丰富,针对特定的领域进行命名实体识别的需求也在不断增加。基于多神经网络协同训练的中文命名实体识别模型克服了特定领域只有少量甚至没有标注语料可用的问题,旨在提高命名实体识别的系统实用性。该方法融合了神经网络和协同训练的优势,首先利用少量的标注数据训练三种不同的神经网络作为基础分类器,然后在大量无标注数据上对三种基础分类器进行协同训练以优化模型。实验结果表明,该模型具有良好的识别效果。(3)设计并实现了界面化的命名实体识别系统,将已经实现的中文命名实体识别模型开发为可以界面化操作的系统平台。通过设计和实现注册、登录和文件上传等功能提高了中文命名实体识别的实用性。
其他文献
人体运动主要是通过中枢神经系统(Central Nervous System,CNS)对多骨骼肌肉进行模块化控制以及神经振荡的调节产生的,在该过程中,肌肉的肌电信号(Electromyography,EMG)之间的相互关联关系可以用来反映中枢神经系统的不同控制过程以及肌肉的运动功能状态,其中包括运动过程中多通道肌电信号之间的协同机制与双通道肌电信号之间的耦合关系。为此,将肌电信号引入运动功能定量分
复杂性科学及其复杂性研究,在21世纪之初便引起了国内外的普遍关注,而无标度网络研究是复杂性科学研究的一个重要部分。研究表明,从生物体中的大脑结构到各种新陈代谢网络,从Internet到WWW,从大型电力网络到全球交通网络,现实世界中许许多多的网络都是有小世界现象或无标度网络特征的复杂网络。复杂网络的研究已引起了不同学科的广泛重视,已成为当前富有挑战性的研究课题。在教育技术领域中,被广泛研究的网络教
在阵列信号处理中,信号源的波达方向(direction-of-arrial,DOA)作为一个热门的研究方向在声纳、雷达、通信、医学检测、电子对抗等领域有着广泛应用。传统经典的DOA估计算法
在互联网中存在着大量的文本数据,信息抽取可以从文本中提取出有效信息为我们所用,而关系抽取是信息抽取中重要的步骤之一,现有的关系抽取方法通常需要较多的标注语料,这需要
近年来,多智能体系统协调控制已经成为控制领域研究的一个热点,其中多智能体系统的一致性是最为基础和关键的问题。由于时间、成本等因素,既要求系统能够在一定的时间内达到一致,也需要一致性算法具有较强鲁棒性。因此,多智能体系统的有限时间一致性是一致性中的重要问题。由于实际中存在许多不确定因素,本文将研究有时延和噪声的多智能体系统的有限时间一致性问题。1.通过采用图论、牵引控制和李雅普诺夫稳定性等知识,研究
电容层析成像技术ECT(Electrical Capacitance Tomography)是一种用于测量管或容器中的空间介电常数分布信息的方法。由于具有非入侵感测,快速响应,易于携带,成本低等出色优
近些年来,随着网络的不断发展,互联网逐步成为了为用户提供大量信息资源的主要途径,信息传播更加全面更加快速且越来越具有影响力,信息数量不断增加的同时也有很多异常信息充斥其中,网络信息的质量令人担忧。目前国内外有很多关于网络信息可信度的研究,然而对于网络社区这一以内容为核心、是互联网用户发表、交流意见的主要场所之一研究较少。本文分析了网络社区及其用户行为的主要特征,包括内容以文本为主、短文本与口语化、
变压器是电网系统中能量转换和传输的核心设备,热量是导致变压器油纸绝缘性能劣化的最重要因素,开展油纸绝缘热老化产物的检测及机理研究,对评估油纸绝缘老化状态和预测变压器寿命具有重要意义。本文首先对油纸绝缘加速热老化试验及绝缘纸聚合度进行研究,其次对绝缘纸老化产物含量进行检测并分析与老化时间以及聚合度的关系,最后建立油纸绝缘热老化状态预测模型并分析绝缘纸降解机理。结果表明:在80℃下加热6h,可去除纸中
随着素质教育的不断推进,问题提出成了备受关注且贯通中外的教育议题,其教学法是鼓励和引导学生参与数学课堂活动的重要方法之一;平面几何以其自身的独特魅力,在初中数学课堂教学中占有重要地位。因为现有研究大多侧重于数学问题提出教学或几何教学的单一研究,所以如何将问题提出教学法与初中几何课堂有效融合,提高几何课堂效率,值得教育研究者探讨。对此,本研究从以下三个问题进行探讨:1、初中几何中问题提出教学的现状如
氮化镓及其相关的合金半导体材料是替代第一代(Si、Ge)和第二代(In P、Ga As)的第三代化合物半导体之一,由于其更为优异的光电性能,近年来得到迅速的发展。其中,三元合金材料之一