基于深度学习的葡萄培育相关知识自动问答方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:huanglien
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国是农业大国,农业信息化在我国农业现代化发展过程中扮演着重要角色。近年来,互联网信息资源的爆炸式增长,使农业生产者无法准确高效地获取目标信息。为解决以上问题,帮助农业领域葡萄产业生产者快速准确获取需求信息,本研究利用自然语言处理领域的自动问答对葡萄相关知识展开研究,利用深度学习模型学习句子丰富的语义信息,并对句子进行特征表示,从问句分类、相似问句匹配和答案选择三方面展开研究。因目前我国农业技术服务尚不完善,本研究对提高葡萄产量和质量有着重要意义。本文主要完成工作如下:(1)基于BERT嵌入Softmax模型的问句分类算法研究。针对收集到的葡萄知识问句具有篇幅较短,特征稀疏的短文本特点,而传统的文本分类算法主要应用于特征丰富的长文本上,若用于短文本则准确率较低。本研究利用具有强大表义能力的BERT预训练语言模型对预处理后的葡萄知识问句进行句子级别的向量表示,并将获得的问句特征向量输入到Softmax回归模型,根据问句内容将句子分为四类。通过实验调节模型参数,并与传统的Text CNN、Fast Text分类模型进行对比,本文分类算法在F1值上分别提高了4.22%、4.97%,达到了71.39%,分类效果较好。(2)阈值检验加权融合的问句相似度计算方法研究。针对传统的文本相似度计算方法考虑因素单一,准确率较低的问题,首先使用三种计算方法从不同的角度计算相似度,基于变形的Damerau-Levenshtein距离从共现词角度计算相似度,基于How Net知识库考虑词频对相似度的影响从词项义原角度,分别计算两问句关键词相似度和全部词相似度,并取最大值,基于Word2vec-LSTM模型从深度学习角度对问句语义学习并计算相似度;然后对三种相似度值利用检验阈值进行检验;最后,通过加权因子对两种及以上相似度值满足阈值的对应相似度值进行融合,并对计算结果排序获得相似问句。实验表明,本文提出的MCWFS计算方法的F1值为73.67%,比传统的Jaccard算法、Word Net方法及Word2vec方法在召回率上分别提高了9.25%、7.34%、4.57%。(3)基于Atten-Bi LSTM-2D的答案选择模型构建。针对葡萄问句答案篇幅较长,信息量丰富的特点,利用双向LSTM模型学习上下文信息,并加入注意力机制,使模型更多地关注文本中有用信息,在此基础上,加入二维神经网络,层次化地抽取文本对之间的匹配特征,从而计算问题和答案的相关度并将结果排序。实验表明,本文方法相比单向LSTM、双向LSTM、Atten-Bi LSTM在MRR上分别提高了16.6%、12.37%、8.08%。在TOP-N取20时,NDCG值取得最大值58.63%。
其他文献
森林对于生态系统的可持续发展起着关键作用,而森林火灾的发生严重威胁着生态系统发展。林火发生初期,由于树木的遮挡,火焰很难被发现,但烟雾却易被监控视频采集。相对传统的
TNM临床分期是癌症诊断及治疗的关键步骤,但由于临床分期需要依赖大量不同来源的信息,而供医生决策的时间有限,很难准确地提取分期相关信息,因而目前临床分期存在较大偏差。
图像分类是如今计算机视觉中的一个研究方向。深度学习作为一种主要研究方法,因网络架构的深度复杂性使得其具有强大的函数拟合能力,但对于小样本图像数据集,仍然有着过拟合
近年来,心脑血管病已成为威胁人类健康的首要杀手,其主要的病理基础为动脉硬化,脉搏波速(Pulse Wave Velocity,PWV)作为心血管事件的独立预测指标,能够定量反映出硬化血管的病变程度。因为一个血管段上的不同位置的管壁弹性程度不同,所以及时了解局域血管的弹性变化对动脉硬化等心血管病的早期预防与诊断具有重要的意义。超声检测技术作为当前检测动脉局域PWV的主要方式,具有操作简单,方便,无创
近年来生物特征在个人识别领域中应用越来越广泛,公众对识别系统安全性的要求不断提高。随着假体指纹膜、伪造面具等欺骗手段的出现,一些识别系统的安全性受到严重的威胁。人
本篇实践报告为会议交传实践报告,其内容基于笔者在商务部国际官员研修中心实习期间接受的一次中信银行青岛分行推介会的会议口译任务。笔者在本报告中介绍任务背景,描述任务过程,分析任务中存在的问题。通过会后对录音的分析,笔者发现了自身在翻译过程中出现的问题,主要体现在专业术语误译、中国特色词汇内涵缺失以及长难句翻译逻辑不清、重复句式译语冗余和信息繁冗句漏译等方面。通过研究学习,笔者找到了一些策略来解决口译
大数据时代的海量数据中,个人信息是尤为突出的重要组成部分。个人信息承载着人格和财产双重性质的利益。科技的进步改变了大数据时代下个人信息的存储、分析方式,信息处理者可以更轻易地对数据分析,尤其是在数字经济的推动下,个人信息的应用范围在扩大到生活方方面面,信息主体出于本能的营利性而展开了了一场“信息争夺战。”相比之下,信息主体就略显弱势,其安全面临着巨大的挑战。从实体法上看,我国的《个人信息保护法》是
细粒度图像分类是图像分类领域内的一项具有挑战性的任务,其主要目标是对子类别间进行区分。由于含有判别性的信息往往存在于微小的局部区域中,目前大部分细粒度图像分类算法
2010年,《国家中长期教育改革和发展规划纲要(2010-2020年)》中明确指出,对于高中阶段教育,要建立学生发展指导制度,加强对学生的理想、心理、学业等多方面指导。当前学生发展指导工作已被纳入我国中教育发展规划中,但如何开展工作仍需要借鉴国外学校学生指导发展的经验。在美国中小学有专业的学校辅导员从事咨询辅导工作,但国内对这一角色的研究还较薄弱。学校辅导员作为学校咨询项目的实施主体,在项目中有着
面部情感识别旨在判断表情所传达的情感倾向,智能感知个体情绪状态,具有重要的研究价值,已成为计算机视觉领域中的研究热点。为此,针对现有面部情感识别模型的不足,本文从图