论文部分内容阅读
随着社会的进步和人民群众生活水平的提高,人们对于食品安全的问题越发重视,食品安全与民众的公共健康和生命安全紧密相关。食品安全事故的不断涌现、屡禁不止,食品安全相关信息的不对称是食品安全问题无法从根本上被治理的主要原因之一,而建立食品安全突发事件相关数据库能够促进食品安全信息的公开化、透明化,有效帮助食品安全的监管同时,也让消费者了解食品安全相关的准确信息。本文主要研究对象是面向食品安全突发事件的中文分词方法。在中文的自然语言处理中,分词往往是第一步,而分词的准确性对后续任务的开展有重大影响。对食品安全突发事件近5000条语料,共计2033539个词进行采集,然后对采集数据预处理后,入库前的必要操作就是进行分词。在目前的中文分词方法中,基于字标注统计学习的分词方法占据主流,其中又以基于条件随机场模型的分词方法效果最好。本文第3章实验中,重点研究了在基于条件随机场模型的面向食品安全突发事件语料分词方法中特征选择以及模型优化的问题,分析食品安全突发事件语料的词长分布等特点,对食品安全突发事件语料不同特征选择和特征模版进行实验,得出不同特征选择和应用不同特征模版对分词结果的影响。在实验结果中,仅加上位置特征的特征选择4Tag和5Tag的分词效果较好,其F值达到了 92.87%和92.88%,而加上其他特征时,F值均有下降;在对不同特征模板的实验中移除二元特征C-1C0、C0C1、C-1C1时,F值下降到86.33%,相比原本特征模板其得到的F值相差了 6.55%,而增加特征模板中特征行时,F值并没有明显变化。深度学习模型不需要人工设计特征,实现端对端的输出,将其应用在中文分词任务中,通过深度学习,深层的复杂网络能够挖掘和学习出文本内部信息,对整个待分词文本进行把握,得到更好的分词效果。双向长短期记忆神经网络模型能够良好的获取句子中上下文信息,并且在一定程度上解决了训练过程中出现的远距离依赖问题,在本文第4章实验中,对基于此模型的面向食品安全突发事件中文分词进行了尝试,通过对训练过程中各参数的调整,其F值最后在94.56%达到稳定,这个结果相比基于条件随机场模型分词结果有较大提高。随着互联网的发展以及食品安全领域的特性,像“膨大剂”、“注胶虾”、“僵尸肉”等专有名词和一些网络热词时常出现在食品安全突发事件的语料库中,将条件随机场模型和深度学习模型应用在面向食品安全突发事件中文分词中能较好的解决这些未登录词的问题,得到良好的分词效果。从本文中面向食品安全突发事件的中文分词结果来看,深度学习相比于条件随机场模型有一定的提高。本文在训练数据、模型构建工具上、计算资源与训练时长、实验结果方面对二者进行了对比,分析了各自优劣,对中文分词方法之后的发展提出了自己的看法。