面向食品安全突发事件中文分词方法的研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:ffyy5051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和人民群众生活水平的提高,人们对于食品安全的问题越发重视,食品安全与民众的公共健康和生命安全紧密相关。食品安全事故的不断涌现、屡禁不止,食品安全相关信息的不对称是食品安全问题无法从根本上被治理的主要原因之一,而建立食品安全突发事件相关数据库能够促进食品安全信息的公开化、透明化,有效帮助食品安全的监管同时,也让消费者了解食品安全相关的准确信息。本文主要研究对象是面向食品安全突发事件的中文分词方法。在中文的自然语言处理中,分词往往是第一步,而分词的准确性对后续任务的开展有重大影响。对食品安全突发事件近5000条语料,共计2033539个词进行采集,然后对采集数据预处理后,入库前的必要操作就是进行分词。在目前的中文分词方法中,基于字标注统计学习的分词方法占据主流,其中又以基于条件随机场模型的分词方法效果最好。本文第3章实验中,重点研究了在基于条件随机场模型的面向食品安全突发事件语料分词方法中特征选择以及模型优化的问题,分析食品安全突发事件语料的词长分布等特点,对食品安全突发事件语料不同特征选择和特征模版进行实验,得出不同特征选择和应用不同特征模版对分词结果的影响。在实验结果中,仅加上位置特征的特征选择4Tag和5Tag的分词效果较好,其F值达到了 92.87%和92.88%,而加上其他特征时,F值均有下降;在对不同特征模板的实验中移除二元特征C-1C0、C0C1、C-1C1时,F值下降到86.33%,相比原本特征模板其得到的F值相差了 6.55%,而增加特征模板中特征行时,F值并没有明显变化。深度学习模型不需要人工设计特征,实现端对端的输出,将其应用在中文分词任务中,通过深度学习,深层的复杂网络能够挖掘和学习出文本内部信息,对整个待分词文本进行把握,得到更好的分词效果。双向长短期记忆神经网络模型能够良好的获取句子中上下文信息,并且在一定程度上解决了训练过程中出现的远距离依赖问题,在本文第4章实验中,对基于此模型的面向食品安全突发事件中文分词进行了尝试,通过对训练过程中各参数的调整,其F值最后在94.56%达到稳定,这个结果相比基于条件随机场模型分词结果有较大提高。随着互联网的发展以及食品安全领域的特性,像“膨大剂”、“注胶虾”、“僵尸肉”等专有名词和一些网络热词时常出现在食品安全突发事件的语料库中,将条件随机场模型和深度学习模型应用在面向食品安全突发事件中文分词中能较好的解决这些未登录词的问题,得到良好的分词效果。从本文中面向食品安全突发事件的中文分词结果来看,深度学习相比于条件随机场模型有一定的提高。本文在训练数据、模型构建工具上、计算资源与训练时长、实验结果方面对二者进行了对比,分析了各自优劣,对中文分词方法之后的发展提出了自己的看法。
其他文献
Domain理论由数学家、计算机理论学家D.S.Scott提出,在Domain理论中两个元素之间的定性关系能够通过序来表达,但是随着现代计算机网络的大发展,传统的二个元素之间的序关系却
先驱体陶瓷传感器是一种能测高温的无线无源传感器。该传感器是基于谐振腔原理制成,当传感器所处温度发生变化时,传感器的谐振频率也会随之改变,且每一温度值与其谐振频率是
研究以探索砾岩层在巴谢河流域内斜坡变形破坏过程中的控制作用为目标,结合流域内地质环境特点,划分流域内的坡体结构类型,利用数值计算、空间分析等方法,分析了砾岩层在斜坡
换热器作为一种热量传递原件,在生产、生活中有着广泛的应用。提高换热器性能对节约能源、降低能耗具有重要意义。目前,针对提高换热器性能的研究有很多,其中包括基于工程实
随着机器人和虚拟现实等技术的不断发展,传统的人机交互方式逐渐难以满足人与计算机之间自然交互的需求。基于机器视觉的手势识别作为一种新颖的人机交互技术,得到了国内外研
近年来有向传感器网络能够在工农业、环境监测、军事等重要领域得到普遍的应用,得益于视频、超声波诸类传感器对图像、视音频等多媒体信息的有效采集和处理。而有向传感器网
随着现代控制技术的快速进步,网络化控制系统因为其自身的诸多优点已经逐渐成为控制领域研究的热门课题。然而,由于网络带宽的限制,在通信网络中存在大量的冗余数据。为了维
随着个体身份认证的安全性越来越受到重视,生物特征识别技术得到迅猛发展。其中,指纹以其优秀的独特性、永久性和方便收集性,成为应用最广泛的生物识别特征。然而,当指尖沾有
在本文中,我们考虑带有p-Laplacian的非线性双调和薛定谔方程△2u-β△pu+αu=|u|2σu,x∈ RN,在约束条件∫RN|u|2dx=a>0下解的存在性,这里N≥1,0<σ 4/N.我们分为两种情况:β>0,2≤p<2*和β<0,2<p<2+4/N+2.通过约束泛函的全局极小化理论,在上述两种情况下均证明了解的存在性.
在现代公司治理结构下,通过构建金字塔结构、交叉持股、发行双重投票权股票或获取更多董事会席位等方式,公司终极控股股东可以以较少的现金投入实现对整个上市公司的控制,使