竹类种质资源信息的自适应提取方法研究

来源 :安徽农业大学 | 被引量 : 0次 | 上传用户:chaoge100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
竹种是一种重要且具有经济效益的森林资源,能够快速获取大量的竹种数据信息以及准确地提取所需信息是充分发挥其实用价值的前提。然而在目前的竹种资源数据获取途径中,多数采用人工收集并且逐步摘选的方法,工作量大导致花费大量的人力物力。因此,如何快速且准确地从大量竹种资源数据信息中提取所需数据内容是急需解决的问题。本文以竹种种质资源数据信息提取为研究对象,重点解决三个问题——竹种种质资源本体的构建问题,基于本体的竹类术语自动识别问题以及基于Web端实现竹种资源数据自适应提取问题,提出构建竹种种质资源本体,在该竹种本体的信息指导下,并引入词向量特征,选用条件随机场机器学习算法进行训练识别,能够有效地从大量数据中快速且准确地识别出所需的竹种术语,为系统中自动化提取竹种术语信息提供了基础。论文的主要研究工作如下:(1)研究了基于OWL(Ontology Web Language,网络本体语言)的竹类种质资源本体构建方法。利用《中国植物志》网站上有关竹种种质资源数据的信息,以及参考竹类种质资源数据管理平台中竹种数据表的设置,本文采用人工构建的方式,采取自顶向下的技术路线,依据Gruber在1995年提出的五条规则,结合七步法和骨架法,人工构建竹种领域本体。并用OWL来描述竹种领域本体,在Protégé软件中开发并且可视化地表示。(2)研究了基于本体的竹类领域术语识别方法。首先以从《中国植物志》网站爬取的竹种信息为数据研究对象,在选择词语本身、词性以及指示词作为基础特征集合之外,引入竹种本体领域词典来指导信息识别过程,并加入词向量特征以提高识别效果,采用BIO(B-begin,I-inside,O-outside,三位标注法)作为边界标识,共同构建成条件随机场模型的输入特征集合。通过模型识别结果表明,本研究方法相较于普通特征集合下的模型识别性能更佳,为后续快速且准确地提取竹种数据信息提供了基础。(3)研发了基于Web端的竹类种质资源信息提取系统。在Web端上通过Java语言编程,并采用Java常用且流行的框架springboot以及前端框架layui来设计开发竹类种质资源信息提取系统。系统主要包括数据处理、模型识别、数据抽取、用户检索以及用户管理等五个功能模块,实现了在系统中自动识别并抽取竹类数据的目的,使得用户可以快速地提取和查询竹类相关信息。本文的研究内容为从大量竹类种质资源数据中快速提取信息和构建竹类资源的数据库提供了技术支持,对竹类数据信息的自动识别和抽取具有较强的实际意义。
其他文献
盗窃罪是古老而又多发的犯罪,可以说盗窃这种行为应该是伴随着人类发展的历史过程,经过实践的发展,慢慢地形成了系统的概念,并逐步发展完善。在我国,有关盗窃罪的立法和司法解释在与时俱进,学术界和司法实务界对盗窃罪有关规定的争论也一直在持续。《刑法修正案八》确定了现阶段我国盗窃罪的定罪模式,即将多次盗窃、携带凶器盗窃、扒窃、入户盗窃四种行为方式与数额要求并列作为盗窃罪的罪状,这是盗窃罪发展史上的一个重要变
2013年,中国国家主席习近平先后提出了“新丝绸之路经济带”和“21世纪海上丝绸之路”的合作倡议,后简称“一带一路”倡议。“一带一路”倡议自提出以来就得到了中国国内和国际社会的广泛关注,其在经济、政治、文化等领域所取得的成果备受瞩目,已然成为代表中国国家形象的“名片”。本文以美国两大主流报纸《华盛顿邮报》和《纽约时报》的官网报道为研究对象,探讨西方媒体关于“一带一路”倡议的报道策略,以及对我国对外
互联网技术发展日新月异,网络数据也增长迅速。面对海量的、形色各异的数据,人们疲于主动挖掘得到精细的有效信息。信息抽取旨在从非结构化文本中自动地提取出结构化的数据。其中一项关键技术便是关系抽取,它能够抽取一段文本中两个客观实体和其蕴含的关系事实,进一步组织为三元组形式的结构化知识,为知识图谱的构建和自动问答等下游任务提供了基础数据。关系抽取一般可分为两个子任务:实体识别和关系分类。实体识别是从文本中
镁合金有许多优于其他金属材料的性能,在航空航天工业中具有广阔的应用前景,十分适合在航空航天器的外壳、减振系统以及其他构件中应用。镁合金复杂铸件在精密铸造过程中极易
老挝网络文本蕴含着大量关乎民意的信息,如何从这些数据里抽取出有价值的信息成为自然语言处理的研究重点之一,但国内外面向老挝语的自然语言处理研究工作较少。老挝作为中国的邻国之一,是“一带一路”的重要盟国,却未达到语言互通的要求。词性标注作为信息抽取研究的一项重要基础任务,本文提出一种融合多特征的老挝语词性标注方法,以解决研究存在的难点,其主要包括以下三个部分:(1)由于老挝语通过词序表达语法含义,而且
地膜覆盖技术是现代农业耕作的重要手段,具有保温保湿,促进生长,提高产量的作用。塑料作为广泛使用的地膜材料,存在不可降解的特性,长期使用会导致严重的环境和土壤污染。因此,可降解地膜成为解决塑料覆盖污染这一问题重要的研究方向。我国玉米种植范围广泛,每年会产生大量的秸秆,但是这些秸秆都没有得到充分的利用,究其原因是玉米秸秆穰主要由薄壁细胞和短纤维组成。薄壁细胞物理强度差使其不适合应用于制浆造纸等纤维制造
恶性肿瘤治疗是世界性难题,早期可手术切除,但晚期主要依靠化疗。近年来发展的饥饿疗法通过减少癌细胞的糖供应来饿死肿瘤,虽取得疗效,但仍存在挑战。肿瘤乳酸对癌细胞因缺糖凋亡有抑制作用,仅阻断糖供应不能彻底杀死癌细胞。同时,堵塞血管后会引起肿瘤因缺氧而激发血管再生,如果不能快速杀死癌细胞,肿瘤血管就会重建。为此,本论文基于饥饿治疗协同化疗策略,构建一种促肿瘤凝血与癌细胞内p H、透明质酸酶(Hyals)
随着人工智能技术的飞速发展,工业机器人的智能化逐渐得到了广泛的关注。其中,尤以串、并联工业机器人的研究为主。并联机器人相对于串联机器人来说,具有刚度大、精度高、承载能力强、易于控制等诸多优点,广泛应用于汽车制造、航空航天等领域。其中,精度是并联机器人重要的性能指标之一,它直接影响着并联机器人的工作性能,也是制约其质量的一个重要因素。因此,分析并联机器人的误差,对提高其精度具有重要的理论意义和实际工
随着我国经济水平和科技水平的稳步提升,我国企业逐渐由“中国制造”走向“中国智造”。李克强指出,要持续推动产学研用一体化发展,推动创新链、产业链、资金链精准对接,加快促进科技与经济深度融合,更好地发挥科技创新支撑引领作用。科技服务企业作为国家现代经济的重要组成部分,在推动科技创新成果转化过程中承担着不可替代的重要功能。在企业科技活动与产业活动衔接的过程中,科技服务企业通常需要双向参与科技活动和产业活
随着现代科技的快速发展,智能化正逐渐成为研究的热点,其中应用深度学习中的神经网络来解决传统的问题已经成为人工智能的重要研究领域。传统的平面3-RRR并联机器人动力学建模需要用到大量的公式,计算过程十分繁琐并且不便于应用。而采用深度学习中的RBF和BP神经网络来替代传统的方法,建立并联机器人动力学模型,可以很好的解决上述问题。其主要研究内容如下:(1)平面3-RRR并联机器人机械系统的设计。根据应用