论文部分内容阅读
食品是人类生存和发展的最基本物质。食品安全是关系着人民群众的身体健康和生命安全。要从根本上解决食品安全问题,就必须引入独立的舆论监督体系。现网络媒体已成为消费者的最佳选择因为网络具有传播速度快,成本低等特点。实际上近年来多起食品安全事件的舆论监督主力都是网络媒体。哈萨克语投诉文本信息抽取技术对于各大哈萨克网页投诉文本中抽取出相关的危害信息。在网络上,同一主题的哈萨克语投诉文本通常分散存放在不同网站上,表现的形式也各不相同。本文详细阐述了基于本体的哈萨克文投诉文本信息抽取模型的基础上提出了基于本体的投诉文本危害信息抽取模型。能够准确的抽取出哈萨克投诉文本中的危害信息,并能够对危害信息的语义进行推理,并且能够利用抽取出的哈萨克文危害信息来完善本体,达到本体的实时性,对哈萨克文食品安全问题方面能起到积极的作用。基于本体的哈萨克文投诉文本危害信息抽取模型由两个主要的模块组成,它们分别是“学习模块”和“抽取模块”。其中“学习模块”主要完成种子词的生成及种子相关词的生成,为后续哈萨克文投诉文本危害信息的抽取和推理起到良好的作用;“抽取模块”主要完成食品投诉文本危害信息的抽取,其中包括三种信息的抽取,分别是“背景知识”、“否定词汇”和“危害信息”,三种信息的有效整合不仅能够解决信息碎片的问题,更重要的是让消费者对食品危害有全面的把握。在抽取哈萨克文投诉危害信息时,首先利用本体解析出的语义背景对投诉文档进行筛选,筛选出是乳制品投诉的投诉文档;再利用种子词对投诉文档进行第二次抽取,在乳制品投诉文档中是否存在相关的危害信息,如存在的话把这个信息输出到语义数据库中。