面向招标物料的命名实体识别研究及应用

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:forisa1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国家大力推进新基建工程建设,国家的政务服务方式发生了翻天覆地的变化,其中招投标方式尤为显著,电子招投标平台已发展为成熟系统,极大地提高了国内企业招投标的效率。面对如此庞大的市场,以及招投标电子化的不断推进,如何对海量的投标数据进行更加高效的利用,成为众多企业面前的一道难题。同时,对物料中的实体进行识别有利于对行业整体态势分析把控,具有很大的实用价值。早期,企业通常使用基于规则的方法对物料进行识别,这种方式不仅耗费了大量的人力资源,面对庞大的数据量,规则也难以做到全面覆盖。随着技术的不断发展,采用深度学习的方法对物料数据进行识别已经成为未来招标物料实体识别的发展趋势。命名实体识别任务中通常有基于字符级向量和基于词级向量两种方式,基于字符级的方式往往无法学习到足够的文本语义信息,基于词级向量的方式往往需要分词,而分词效果会在很大程度上影响识别效果。传统的识别方法无法获取动态词向量,从而无法解决一词多义问题,并且没有考虑中文特有的字形特征。同时,在招标物料领域的命名实体识别研究较少,学者只针对某一类少量数据进行实验验证,难以充分学习语义信息,导致泛化能力较差。因此,针对上述问题本文做出以下工作:(1)构建招标物料语料库:由于该行业的特殊性以及物料种类繁多、数据冗杂,电子招投标领域难以对所有种类的物料进行有效的整合,缺乏权威的公开数据集,本文以招投标公司提供的采购数据为基础,通过爬取各大招标网站的公开数据,最终收集到8万条不同格式、书写各异的物料数据,作为语料库构建的基础。(2)BERT-Bi LSTM-CRF模型:提出一种基于BERT预训练模型命名实体识别方法。本文通过引入预训练模型BERT提取字向量,有效地解决了传统语言模型向量表达过于单一的问题,实现了物料实体的有效识别。(3)W-BERT-Bi LSTM-CRF模型:提出一种融合五笔字型特征的命名实体识别方法。基于预训练模型的基础上,本文采用CNN对汉字的五笔字型特征进行提取,将字型特征与BERT模型提取的字符向量进行融合,融合向量作为双向LSTM模型的输入,最后经过CRF模型进行约束,得到序列标注的最优解。结果表明,五笔字型特征能够有效提高物料实体的识别精确率。(4)“智能物料”在线识别平台:在上述工作的基础上,本文搭建了“智能物料”在线识别网页平台,以可视化工具的方式为用户提供一种便捷的物料识别标准化处理手段,为后期物料分析和采购策略提供精准的数据支持。
其他文献
我国目前已经步入了城镇化建设发展的中后期,即由增量扩张转向存量提质的新阶段,城市更新也愈发受到重视。社区是构成城市的基本单元,有着其独特的历史、文化等差异性主题,其存在赋予了城市丰富的意义与特色。城市老旧社区中公共空间的更新与社区的营造是实现城市更新最直接的出发点与落脚点,值得我们进一步深入研究。在以往的老旧社区公共空间的更新中多以物质空间本身的改造为主,缺乏多维度、整体性、系统性的深入思考。本研
学位
脉冲熔化极气体保护焊(Pulse Gas Metal Arc Welding,P-GMAW)的熔透控制对提高打底焊焊接效率、环境适应性及成本降低等具有重要意义和工程实用价值,但由于缺乏与熔透之间存在定量关系的特征信息,想要实现熔透表征及测量十分困难。熔池固有振荡与熔透之间具有明确定量关系,如能从P-GMAW熔池的多维振荡中传感并解析固有振荡特征,则可取得较好的控制效果。为此,本文提出激光视觉测量P
学位
高压输电杆塔作为电力网络中的重要结点,其运行状态关乎着整个电力系统的稳定。在高压输电杆塔常见的故障类型中,由于杆塔倾斜引发的故障占有很大的比重,所以对输电杆塔进行倾斜检测尤为重要。传统的检测仪器体积笨重、操作复杂且误差较大,本课题结合现有的图像识别采集技术与无线通信技术实现对输电杆塔的倾斜检测,根据对输电杆塔基座的识别与定位,建立输电杆塔倾斜的数学模型,解算其倾斜角度。根据课题的基本需求,本文主要
学位
为探讨紫草素对类风湿关节炎(RA)的影响,将ICR小鼠随机分为4组:正常对照组和3个试验组(模型组、阳性对照组、紫草素组)。造模15 d后给药治疗60 d,阳性对照组灌胃美洛昔康[50 mg/(kg·d)],紫草素组灌胃紫草素[2 mg/(kg·d)],正常对照组和模型组灌胃等体积的生理盐水,分离小鼠右足踝关节部位,对滑膜炎症程度(0-3级)和软骨破坏程度(0-4级)以及骨浸润进行评估,分离小鼠胸
期刊
文化创意产品是将文化中的元素提取出来,运用创新思维以巧妙的方式运用到产品之中,增加了产品的文化内涵与丰富程度。如今文创产业蓬勃发展,文创产品也水涨船高,文创产品的种类丰富多彩,设计有了长足的进步,辐射面也越来越广,从最初的博物馆,到现在的旅游景点、美术馆、书店甚至是学校,只要有文化存在的地方,就有文创产品的一席之地,这些优秀的文创产品慢慢积累成为一个文化品牌,具有自己的知名度和号召力,可以传承与发
学位
与经典信息技术相比,量子信息技术在通信与信息处理方面具有极大的优势。光量子系统由于速度快、保密性高、操纵便捷、受环境影响小等优势,已成为量子信息发展的主要方向,是最有潜力实现大规模量子信息处理的物理平台。与集成电路中的二极管相似,光波单向传输器件可操控光子的传播方向,在光量子信息处理中发挥着重要作用。光子晶体由于光子带隙和光子局域特性,具有控制精度高、光损耗小等优势,有利于实现光波单向传输器件的微
学位
行为识别技术旨在让计算机从所获得的信息中识别并理解人体的具体行为,根据输入数据的不同大致可分为三类:基于视频的行为识别、基于穿戴式设备的行为识别以及基于信号的行为识别。其中视频行为识别技术在视线没有遮挡的非视距环境中受到严重的限制,而穿戴式设备虽不受光线的限制,但其价格昂贵的同时影响用户使用体验。而在电商项目的使用场景中,当其运行于非电脑或手机等智能终端时(如电视、投屏等设备),可以通过人体的行为
学位
近年来,由于全球气候的变化,碳排放引起越来越多国家的重视,我国也提出了碳达峰、碳中和的目标。燃煤电厂的排放是我国主要的产生CO2温室气体的部分,电厂烟气中含有的CO2浓度比较高,又由于烟气中氧气的含量比较低,可以认为烟气为惰性气体。开展矿井利用其坑口电厂产生的烟气注入井下采空区防灭火的研究,不仅可以达到矿井采空区防灭火的要求,而且可以使电厂产生的烟气实现减排,并降低矿井制备其他惰性气体的成本。因此
学位
目的:探讨对血透室实施护理流程管理对提高护理质量的作用。方法:选取本院2018年1月至2020年6月血透室收治的62例维持性血液透析患者为研究对象,依据管理方式不同分为对照组与观察组,各31例。对照组实施常规管理,观察组实施流程管理。比较两组患者护理质量评分、对护理工作的满意度及护理风险事故发生率。结果:两组患者管理后护理质量评分显著高于管理前,且观察组高于对照组,组间比较,差异具有统计学意义(P
期刊
高温空气燃烧通过回收烟气余热加热助燃空气,实现CO2和NOx的低排放与节能。其中蓄热体的性能决定燃烧系统的节能效率和燃烧稳定性。相变材料(PCMs)引入蜂窝陶瓷后可以通过相变潜热增加蓄热密度,提高热效率和空气预热温度。金属及其合金因导热系数高、蓄热密度大、环境友好等而成为具有潜力的相变蓄热材料。本文将铝硅合金微粉以不同方式分别引入堇青石-莫来石和刚玉-莫来石陶瓷,研究了其不同加入方式和加入量对陶瓷
学位