论文部分内容阅读
新词识别是食品安全信息处理中的一个难点,新词是造成分词错误的重要原因。利用互信息提取新词特征并采用BP神经网络过滤垃圾词串以识别新词,以提高食品安全文本分词准确率。首先在互信息新词识别基础上,得到候选新词的多个统计量特征。然后对候选字串是否成词进行人工标记。最后将统计量特征和人工标记的新词作为训练样本,建立BP神经网络新词识别模型。在食品安全信息文本数据上进行实验,该方法可以取得新词识别准确率(0.806)。结果表明基于互信息特征提取的BP神经网络新词识别模型可以很好地识别新词,降低词语误判,对于食品安全