论文部分内容阅读
随着人们生活水平的提高,人们对于自身的健康状况越来越重视,营养学也逐渐被大众所关注。然而营养学研究内容广泛,研究成果丰硕,如何从海量的信息中对营养学知识加以掌握并合理利用,这是一个难题。本文针对营养学领域的知识抽取相关技术进行研究,旨在探索从海量文本信息中对营养学知识进行自动抽取的方法,从而在海量文本中,挖掘出有价值的信息,同时也是为后续对营养学知识的使用的研究奠定基础。针对营养学领域知识抽取的相关技术,本文主要从营养学领域的标注语料库的构建、营养学领域的命名实体识别技术以及营养学领域的关系分类技术这三方面进行了研究。针对营养学领域标注语料匮乏的问题,我们构建了营养学领域的标注语料库。首先我们构建了营养学领域的语料标注规范。结合营养学知识的特点,我们定义了10类实体,153种关系,对实体类别进行分组,形成6个实体组,在实体组上形成26种关系。其次我们构建了通用语料标注工具。其可以使标注者将全部精力集中在需要标注的文本内容上,而不必为标注语料的存储格式而分心,从而提高标注人员的效率。最后我们对营养学的教材进行了标注,构建了营养学领域的标注语料库。针对营养学领域命名实体识别的任务,我们分别以条件随机场模型和双向长短时序记忆网络模型为基础,构建了营养学命名实体识别模型。构建了包括领域词典特征在内的各项特征,验证了其对两种模型均具有效性。对比了两种模型在基于字和基于词的情况下性能的差异。提出以词边界作为特征的基于字的模型,实验验证了在相同特征的条件下,其对于基于字的模型和基于词的模型均表现出优势。针对营养学领域关系分类的任务,我们分别以双向长短时序记忆网络模型和卷积神经网络模型为基础构建了营养学关系分类模型。结合营养学领域语料的特点和神经网络模型的特点,分别引入了词级别特征、逐段处理机制(Piecewise)和注意力机制(Attention),验证了其对于两种模型性能的提高均具有有效性,并提出综合上述所有特征和机制的综合模型,实验表明,基于双向长短时序记忆网络模型的综合模型取得了最优的效果。总的来说,针对营养学领域知识抽取的相关技术,我们从基础的标注语料库的构建出发,探索了营养学领域的命名实体识别技术和关系分类技术,并取得了一定的成果。我们希望这些研究成果可以进一步拓展到更广泛的数据上,为营养学领域的信息学发展做出一点贡献。