营养学领域的知识抽取相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhaohongjie0908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们生活水平的提高,人们对于自身的健康状况越来越重视,营养学也逐渐被大众所关注。然而营养学研究内容广泛,研究成果丰硕,如何从海量的信息中对营养学知识加以掌握并合理利用,这是一个难题。本文针对营养学领域的知识抽取相关技术进行研究,旨在探索从海量文本信息中对营养学知识进行自动抽取的方法,从而在海量文本中,挖掘出有价值的信息,同时也是为后续对营养学知识的使用的研究奠定基础。针对营养学领域知识抽取的相关技术,本文主要从营养学领域的标注语料库的构建、营养学领域的命名实体识别技术以及营养学领域的关系分类技术这三方面进行了研究。针对营养学领域标注语料匮乏的问题,我们构建了营养学领域的标注语料库。首先我们构建了营养学领域的语料标注规范。结合营养学知识的特点,我们定义了10类实体,153种关系,对实体类别进行分组,形成6个实体组,在实体组上形成26种关系。其次我们构建了通用语料标注工具。其可以使标注者将全部精力集中在需要标注的文本内容上,而不必为标注语料的存储格式而分心,从而提高标注人员的效率。最后我们对营养学的教材进行了标注,构建了营养学领域的标注语料库。针对营养学领域命名实体识别的任务,我们分别以条件随机场模型和双向长短时序记忆网络模型为基础,构建了营养学命名实体识别模型。构建了包括领域词典特征在内的各项特征,验证了其对两种模型均具有效性。对比了两种模型在基于字和基于词的情况下性能的差异。提出以词边界作为特征的基于字的模型,实验验证了在相同特征的条件下,其对于基于字的模型和基于词的模型均表现出优势。针对营养学领域关系分类的任务,我们分别以双向长短时序记忆网络模型和卷积神经网络模型为基础构建了营养学关系分类模型。结合营养学领域语料的特点和神经网络模型的特点,分别引入了词级别特征、逐段处理机制(Piecewise)和注意力机制(Attention),验证了其对于两种模型性能的提高均具有有效性,并提出综合上述所有特征和机制的综合模型,实验表明,基于双向长短时序记忆网络模型的综合模型取得了最优的效果。总的来说,针对营养学领域知识抽取的相关技术,我们从基础的标注语料库的构建出发,探索了营养学领域的命名实体识别技术和关系分类技术,并取得了一定的成果。我们希望这些研究成果可以进一步拓展到更广泛的数据上,为营养学领域的信息学发展做出一点贡献。
其他文献
苹果表面伤疤分类是图像分类的一种特殊应用,是根据苹果表皮伤疤的具体形状和大小将苹果划分到某一具体的类中。传统的机器学习方法对图像分类问题的研究是通过手工设计特征
U3O8型铀矿石浓缩物中的w(U)对蒸氨残液返回率稍有影响,当w(U)=75.0%时,结晶母液体积返回率为30.61%;w(U)对NH4NO3返回率和硝酸消耗的降低均无影响,当萃取原液ρ(U)=250g/L时,NH4NO3
电网调度操作票是供电企业实现电网调度的重要依据,电网调度管理的自动化水平有了明显提高。但是,国内当前的操作票管理自动化水平还相对较低,从而降低了电网调度管理的自动化程度。本文按照攀枝花供电公司的电力调度操作票管理实际业务需求,详细分析和研究了电力调度操作票系统的研发技术和过程,并对系统进行了验证分析。在研究工作中首先对当前国内外的电力调度操作票自动化发展进行了整理分析。随后,对电力调度操作票的相关
数据包络分析(DEA)自发展以来,公共权重法在单阶段DEA模型中就应用广泛,但其在两阶段DEA模型中却少见。本文以两阶段DEA模型为研究对象,基于单阶段DEA模型中公共权重法研究的
环境问题是当今社会发展面临重要课题,而水环境是其中至关重要的因素。随着城市化、现代化进程的推进和人口的不断增加,当前我国一些地区水环境质量差、水生态受损重、环境隐
思想品德课就其学科特点而言单靠教师的讲析已不能适应形势发展的需要,只有充分调动学生的积极性,培养学生的自主学习的能力,才能适应课堂教学改革的需要,也才能适应学生终身发展的需要。那么,如何有效地培养学生自主学习的能力呢?  一、更新教学观念,实践新模式教学  在新课程改革的理念下,要促使学生在教师的指导下主动地、充满个性和富有效率的学习,必须转变学生的学习方式,而主渠道在课堂。教师要确立为“学”而“