基于BERT的Base与Large版的领域命名实体识别研究

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:wwh447
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决西藏畜牧业领域相关文本的实体识别难度大的问题,构建了一种结合BERT预训练语言模型的神经网络模型,该模型将语料输入BERT中获取字向量抽象特征,然后再传入双向长短时记忆网络(BILSTM)中编码以获取上下文相关的语义信息,最后通过条件随机场(CRF)进行解码提取出相应的实体.结合领域特点自建西藏畜牧业领域语料库,并设计不同类型实体的标注方法及命名规范,将BERT的Base和Large版本分别与BILSTM-CRF结合进行命名实体识别实验.实验结果表明:总体上Base和Large版在F1值上分别收敛至92.37%和92.78%,但是在自定义的动物、动物疾病以及病虫害三个类别上未训练词的识别方面,Large版的F1值比Base版平均高6.25%,该模型在西藏畜牧业领域命名实体任务中表现出色并且BERT的Large版对长语句中的未训练词识别效果更好.
其他文献
联合研制是制造业开放交流,推动高质量发展的重要技术实现路径.交易结构设计是其合约基础和效率保障.一些联合研制项目,尤其是国际间联合研制项目,因缺乏有效的交易结构设计理论与方法等,致使项目立项失当或实施失控,甚至中止.因此,为指导联合研制项目合理立项与顺利实施,提出并研究了联合研制与交易结构设计交互关系;在魏朱商业模式理论拓展研究基础上,提出了其交易结构设计定位内涵、模式特征、关键要素体系;提出了联合研制项目全方位四模块、全生命周期六阶段、全要素七十项内容的交易结构体系构建模式;形成了联合研制项目交易结构设
随着物联网系统的迅速发展,越来越多设备和参与方加入到系统中.但是,大多数现有系统采用中心化的管理方式,在可扩展性、数据安全与隐私性、多方协作、数据共享方面面临诸多挑战.区块链技术是一种结合数字加密、分布式计算的点对点分布式记账技术,具有去中心化、不可篡改、可验证、可追溯等特性,为物联网系统面临的安全、协作和信任问题提供了解决方案.论文阐述了物联网系统前存在的挑战,分析了区块链在这些应用场景下的优势特性,并对区块链在物联网领域的应用解决方案做了对比和归纳,对区块链+物联网应用具有一定的借鉴意义.
股票市场作为金融系统的重要组成部分,是一个典型的具有结构复杂性和节点复杂性的复杂网络系统.作为拆分和了解复杂网络的有力工具,社团结构分析被广泛应用于社交网络、物流网络等多种复杂网络系统,并取得了突破性成果.论文采用Pearson相关系数来度量中国A股市场中股票价格波动的相关关系,构建股票市场加权网络,利用改进型社团相似性指标,选定了股票市场时序动态加权网络的步长与社团划分算法,并对社团结构进行了简要分析.
近年来为加快形成多域联合作战能力,美空军将“像作战一样训练”的理念推广应用到新技术、新战术、新能力的试验中,创新推出了“橙旗”、“翠旗”、“黑旗”3个新的以“像作战一样试验”为核心理念、相互联动、三位一体、试训结合的“试验旗”系列演习,为加快研制“天生联合”武器装备体系和快速形成全域作战能力提供重要平台和手段;文章介绍了近年来美空军频繁开展“试验旗”系列演习的实情;分析了“试验旗”成功实施背后的理论方法和能力基础;最后从转变理念、完善机制、整合资源等方面提出了对推动我国武器装备试验鉴定工作发展的启示建议.
分别采用归一化互信息和Pearson相关系数两种指标衡量A股市场股票价格波动相关性,并利用阈值法和PM-FG算法来构建股票市场网络.通过对所构建网络模型的比较和分析,发现基于Pearson相关系数的阈值筛选法表现较优.基于所构建的A股市场时序动态网络,对度中心性进行研究,通过设计度中心性策略并进行实证性分析,得到了市场表现更好的基于社团分析的度中心性策略.
近年来,大规模在线开放课程(MOOCs)发展迅速,吸引了学界的广泛关注.用户退课率极高这一问题的长期存在,使得退课行为预测成为了一个重要的研究课题.目前的退课行为预测模型过于依赖传统的机器学习算法.此外,很多研究忽视了MOOCs用户灵活修课的特点,采用时序无关的方法进行预测.针对目前该领域存在的问题,论文提出了一种融合注意力机制的时序预测模型.该模型首先利用长短期记忆网络从原始的时序数据中学习新的时序隐态表示,再使用多个一维卷积神经网络提取隐态中各类特征的时序模式,最后融合注意力机制,使模型能够通过注意力
聚类是一种无监督分类,常用于机器视觉、图像处理等领域.针对密度峰值聚类算法初始聚类中心需要人工手动选择问题,提出一种自动选择聚类中心算法,通过使用最小二乘法结合决策图进行簇中心选择,并提出改进选点策略进一步减少算法所需时间开销.实验中使用Matlab实现算法,并使用6种UCI常用数据集测试,实验结果表明它的性能优于现有的方法,在无需人为干预的情况下获得较好的聚类效果,对数据集内部规律和噪声点都有较好的识别能力.
多模态是描述一个整合不同数据包括文本、图像、声音等信息的过程.在互联网领域,设备单位归属是指连接到互联网中的设备属于哪一个单位或组织.网络设备所属单位的识别对提高网络的安全性和服务性等方面起着重要的作用.域名作为计算机的定位标识,确定它所属的单位对网络的安全和管理十分必要.现有的确定域名所属单位的方法通常是通过查询设备注册商,但由于提供服务的云服务商,域名服务商的存在,大多数域名的注册单位并不是域名的使用单位.为了能快速、准确地确定域名所属的单位,这篇文章以域名对应的网站为基础,通过分析网站中的文字信息和
大数据交互式查询分析对于查询时延具有较高需求,基于采样技术的近似计算服务通过牺牲一定的准确性可以获得较少的查询时延,其在大数据近似查询分析方面具有良好的普适性和广阔的应用前景.论文所述系统Flexisample是一个基于采样技术的个性化近似聚合查询系统,实现了针对查询请求的解析重写和逻辑样本组合策略,使其可以满足个性化的多维聚合查询需求.为了在满足多样个性化聚合查询请求的同时保证一定的准确率,Flexisample维护了一组优化设计后的分层样本,并且为了扩大样本在时间维度上的覆盖范围,系统利用在线数据流对
法律文件数量的快速增长与人工智能的飞速发展,推动了法律领域中机器阅读理解的发展,如罪名预测、证据预测、法律条文推荐等.证据预测是其中一个关键应用,支持问答系统,即在预测答案的同时进行证据预测,预测出的证据用来辅助推断答案.当前法律文书通常包含20句以上的语句,其中可作为直接支撑答案的证据不多,一般不超过3句.证据预测需要从文书的大量语句中寻找和答案相关的证据,难度较大,其过多的样本数据会使不相关语句对预测结果产生干扰.为了过滤法律文书中众多和答案证据不相关的语句,提出了面向法律文书基于语句选择的证据预测方