基于Web文本挖掘的命名实体关系抽取研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:cnars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体关系抽取是信息抽取领域的重要研究课题,从应用角度而言,它属于智慧搜索、自动问答、知识图谱等系统的关键技术之一;从基础理论研究而言,它对于机器翻译、文本分类、自动摘要、新词发现等自然语言处理技术有重要研究意义。当前国内外对于命名实体关系抽取的研究,大部分集中在ACE(Automatic Content Extraction)定义的七种主要关系类型的研究,而对于诸如农业信息领域的命名实体的研究则比较少见。此外,大部分研究方法集中在知识工程方法或机器学习方法,而其中的机器学习方法大多数使用单纯的有监督或无监督训练方法,而对于结合人工与机器学习的方法研究较为少见。基于命名实体关系抽取的国内外研究现状,本文对香蕉命名实体关系抽取进行了较为深入的讨论,综合应用到了人工和机器学习的方法,具体而言,本文研究工作包括以下几个方面:(1)构建面向香蕉的命名实体语料库。在分析了农业信息的特点的基础上,设计了定向爬虫,并采集了香蕉网页文档。然后设计了基于网页特征的Web信息抽取模型,并完成了对Web网页信息的抽取,接着进行文本清洗、实体识别,最终抽取出命名实体对。(2)面向香蕉的命名实体关系抽取研究。根据已构建的命名实体语料库,定义了本文所要研究和抽取的命名实体关系类型,提出了一种基于Word2Vec和种子自扩展的命名实体关系抽取模型,该模型的核心在于将命名实体对转化为数值向量,并通过计算向量之间的相似度来表征命名实体对之间的相似度,采用此模型对本文构建好的香蕉命名实体语料库进行命名实体关系抽取,设计并分析实验结果,讨论了模型效果。(3)命名实体关系抽取系统设计与实现。针对系统的功能目标,首先设计了系统的总体架构,并进一步完成了系统详细设计,接着根据系统设计完成了系统各功能模块实现。利用本文设计的命名实体关系抽取方法,对本文构建香蕉命名实体语料库中的语料进行若干实验,取得了平均78.4%的准确率、平均60.2%的召回率,具有良好的效果,验证了本文方法的有效性。
其他文献
在基材表面用疏水性物质进行微结构涂层整理,能够显著提高其表面疏水性能。由此制得的新型功能化材料,在模板、过滤、生物、光电子和仿生材料等领域应用广泛。在众多的微结构
本翻译报告的原文材料取自美国著名法学家Anniken U.Davenport的著作Basic Criminal Law中的一份大陪审团起诉书。本翻译报告以这一大陪审团起诉书的翻译实践为基础,阐述了翻
为了将我区边远贫困地区与较发达地区教育发展水平上的差距缩小,让广大农牧区和边远贫困地区的中学生同样能够享受到一样高质量的基础教育资源,也为了给内高班输送大量的高质
实际工程中,工业废水经生物处理后仍残留低浓度有机污染物,具有潜在的生态风险。此外,水处理行业总体面临着更严苛的排放标准和更迫切的减排及回用要求,因此对高风险尾水进行
图像处理技术及数据挖掘技术在智能监控领域内有着广阔的应用前景。近年来,越来越多的研究者开始探索图像处理技术结合数据挖掘技术在动物行为及动物健康养殖方面的应用,特别
石墨烯量子点(GQDs)是在二维形式、一维形式和零维形式等碳纳米材料,如石墨烯、碳纳米管、富勒烯,相继问世之后,人们发现的一种新型荧光材料。本论文中,选择GQDs作为合成制备
近年来,随着全球化的迅速发展,各国之间的贸易和商业往来日益增多,这一趋势不可避免地对各国法律文化的交流带来了巨大影响。贸易中,商标法是保护企业合法利益的重要手段之一
颗粒增强铝基复合材料由于具有优异的力学性能而广泛应用在航空航天、汽车及军事等领域,相关材料的研究有重要的实际意义。本文采用粉末冶金法制备了TiO2p/Al复合材料,应用现
《1300公里》系列毕业创作是对自己在外求学的总结与实践的记录,是自己从事艺术领域的笔记。“1300公里”不仅仅是简单的距离,它隐喻着努力奋斗的一个过程,其实每个人内心都有一个“1300公里”每个人都在为他自己的“1300公里”在努力。我希望通过本次创作实践,为今后的绘画创作铺平道路。如今当代艺术发展朝气蓬勃,传统画种垄断美术界的局面被打破,实验性质的艺术形式在当代发展迅速。艺术的功能很广泛,不光
有机硅化合物具有低表面自由能、耐高低温性、化学稳定性及生物相容性等优异性能,在许多领域得到了广泛应用,其中有机氯硅烷(RSiCl4-n,n=0,1,2,3)具有较强的反应性,通过简单