【摘 要】
:
中文公司名实体识别是命名实体识别的一个细分领域。中文公司名实体识别是对企业的曝光率、知名度、运作状况等信息进行自动化分析的基础,在新闻、财报的自动化分析中具有重要意义。但是,目前的中文公司名识别遇到了很多难点,导致识别率偏低。本文针对这些难点,分析了各个模型的优劣,并针对性地搭建了测试语料库。本文的主要工作如下:(1)针对中文文本缺少分隔符以及中文一词多义现象常见的情况,本文使用BERT词向量模型
论文部分内容阅读
中文公司名实体识别是命名实体识别的一个细分领域。中文公司名实体识别是对企业的曝光率、知名度、运作状况等信息进行自动化分析的基础,在新闻、财报的自动化分析中具有重要意义。但是,目前的中文公司名识别遇到了很多难点,导致识别率偏低。本文针对这些难点,分析了各个模型的优劣,并针对性地搭建了测试语料库。本文的主要工作如下:(1)针对中文文本缺少分隔符以及中文一词多义现象常见的情况,本文使用BERT词向量模型和传统的Word2vec词向量模型生成字向量,使用BiLSTM-CRF模型进行判断。实验表明,在充分结合上下文计算后,BERT模型降低了分词错误和一词多义对模型带来的影响,提高了模型的召回率和准确率。(2)针对公司名构成形式多样、所处语境复杂多变的问题,本文针对中文的构词特性,使用微调后的RoBERTa模型和wwm策略,生成更为准确的字向量,从而解决复杂语料库中因构词多样及语境多变带来的公司名识别难的问题。(3)针对同一公司有多种完整度不同的公司名的现象,本文对不同语料库进行评估,提出了使用公司名完整度和公司名实体在总命名实体中的占比评估语料库的方法,从而使得模型可以模拟多种应用场景,进而充分测试出不同模型的性能差异。本文选取近些年新浪新闻中的财经类报告语料和boson语料,对Word2vec、BERT、RoBERTa等词向量模型进行对比测试,并在BERT和RoBERTa预训练模型上另外使用wwm策略进行对照。测试结果表明,相较于常用的Word2vec-BiLSTM-CRF模型,BERT词向量模型能更好的联系上下文识别出公司名实体;相较于常规BERT,wwm策略在不增加训练时间的情况下将财经类报告中公司名识别的F1值提升了1.75%,而在boson语料库上,RoBERTa将公司名识别的F1值提升了3.11%,RoBERTa-wwm将F1值提升了4.02%,证实了RoBERTa模型和wwm策略的有效性。
其他文献
运用2016~2020年面源数据,采用区位商、集中系数、优势指数测算与比较全国7个苹果主产区集群集中度及竞争力。研究表明:(1) 7个苹果主产区均具有专业化优势和集群发展优势。其中,陕西省苹果产业发展优势最显著,且集群优势要优于专业化优势;山西省与陕西省专业化优势的差异较小,而集群发展优势差异较大;近5 a甘肃省苹果产业的专业化程度和集中化程度呈增长态势;山东省、辽宁省、河北省的苹果产业的专业化程
随着深度学习越发成熟,目标检测已经成为计算机视觉领域中一项非常重要的基础性任务并受到了研究者们重点的关注。该技术已经被广泛的应用在如人脸识别、动作识别、实时监测等不同领域。在目标检测领域,较为主流的算法就是通过应用卷积神经网络来对图像进行特征提取的算法。随着算法的不断改进,如何针对复杂场景下图片特征的提取,同时保证不同尺度下的特征图的平衡性成为了提高算法模型精确度和实用性的关键。当今YOLOv5算
智能手机早已风靡全球,在智能手机中安卓手机占据了四分之三的份额。随着时间的发展,各种安卓恶意软件大量出现。现有的恶意软件识别方案大都是使用的监督学习方法进行分类,这种分类方法精确率高速度快,但面对新出现的样本时分类效果差,使用无监督学习的聚类算法在处理未知样本时效果要更加优秀。本论文针对分类算法处理未知样本效果差的问题,参考最大最小蚁群算法和蚂蚁排序算法以及层次凝聚聚类算法,提出了一种基于改进蚁群
近年来,柔性结构与材料的大规模开发与应用对其结构的形变实时监测技术提出了许多新的要求。相比于其他形状感知技术,光纤传感技术具有抗电磁干扰、生物相容性且易于集成等特点,因此被认为是下一代传感技术的重要组成部分。目前,由于已开发的光纤形状传感技术受到光纤应变测量技术与三维重构算法等因素制约,仍存在测量精度不理想、测量离散化与高重构误差等问题。本论文针对上述问题,设计了一种具有高空间分辨率的分布式光纤三
<正>近年来,陇南苹果产业逐步形成了向优势区域集中生产的格局。针对此,我们从多方面分析了目前陇南苹果产业具有的独特发展机遇与发展优势,同时提出了促进陇南苹果产业升级转型与创新优化的一系列发展措施,以期全面推动与促进未来陇南苹果产业的可持续发展。在传统农业与现代产业交替发展之际,大力保障苹果优势区域的品牌,对我市农业产业发展具有战略性意义。
据统计,2020年以来,我国境内捕获的恶意程序达261,603个,恶意软件的攻击造成的后果十分严峻。针对数量庞大的恶意软件,针对恶意软件的分类显得尤为重要,准确率更高的分类方法可以帮助我们更好的应对恶意软件的攻击。而随着恶意软件的不断进化,种类不断增多,传统的静态分类方法与动态分类方法已无法应对新兴的恶意软件,因此,本文采用多特征融合与深度学习相结合的方式,提出一种新的分类模型,经实验数据验证,分
在光网络信号的传输过程中,长距离传输是一个非常重要的研究方向,光信号经过长距离传输会出现信号质量劣化的现象进而导致输出信号的光信噪比降低、接收端出现误码,所以为了提高信号的质量在长距传输中一般会加入掺铒光纤放大器、拉曼放大器、遥泵等设备和添加前向纠错码。通过使用前向纠错码能够以较低的代价提升信号的传输距离,现有的前向纠错码应用的环境基本为2.5Gbit/s速率以上的光传送网中,而千兆速率的以太网帧
随着国内经济的稳步发展及车辆制造科学的不断进步,机动车保有量逐年增加,各个城市的交通问题逐渐显著,如何有效地将通信技术与信息技术相结合去解决交通拥堵的问题已经成为了当今时代的重要课题。交通流预测已经成为了一个热门的研究课题,国内外越来越多的学者投入到该领域的研究之中。近十年内,世界各国的研究学者提出了很多种不同的交通流预测方法,但绝大部分方法都是在时序层面对其进行预测,对交通流量空间相关性的研究不
为了厘清新的气候期(1991-2020年)陕西北扩区苹果气候适宜种植区的精细化分布,揭示该区域苹果可发展种植潜力,本文基于陕西苹果产区气象观测、数字高程模型、耕地确权等多源数据资料,综合考虑陕北山地苹果种植的气候与立地条件需求,选取年平均气温、年降水量、6-8月空气相对湿度、6-8月平均最低气温、1月平均气温、坡向、坡度共7项因子作为区划指标,采用多元回归方法进行各气候因子空间化模拟推算,基于模糊
作为人机交互的关键技术,语音合成是人工智能领域的重要研究方向之一,基于深度学习技术的语音合成方法也日益成熟,其核心是建立文本到语音的非线性关系模型,实现文本序列和语音频谱帧的特征映射关系。然而当前主流的语音合成模型面临着高质量单一音色训练数据需求较大和供给不足的矛盾以及当合成长文本时出现的重复读音、遗漏读音等鲁棒性问题。针对语音合成领域当前存在的高质量单音色语料缺乏和长文本合成鲁棒性较差的问题,本