生物医学领域非结构化文本阅读理解方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:guozhizhong8017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生物医学领域的大量研究成果推动着该领域飞速发展,与此同时,生物医学领域文献的数量也以惊人的速度增长。作为展示专家科研成果的重要途径,文献中蕴藏着许多有价值的生物医学知识。帮助科研人员从繁杂的非结构化文本中有效获取需要的信息,对于构建生物医学FAQ库,辅助科研人员的后续研究工作具有广泛的应用价值。传统解决问答任务的检索匹配方式存在无法捕获段落的上下文语义信息、领域适应性欠佳等缺点,不适用于科研人员准确、高效地获取信息。阅读理解技术为问答任务提供关键技术支持,通过阅读理解可以提升问答的准确性,但是对于特定领域的阅读理解研究仍需要继续探索。本文基于Bio BERT和混合注意力机制,提出了生物医学领域非结构化文本阅读理解模型Bio BERT-Mix Att来提升回答生物医学领域问题的能力,模型采用“编码层-交互层-输出层”这种分层的网络结构,主要解决Bio ASQ数据集的factoid和yes/no两种任务,具体研究内容如下:首先,在模型编码层中引入预训练语言模型Bio BERT实现生物医学领域的适应性。利用在大规模生物语料库上预训练的特定领域语言表示模型Bio BERT生成包含上下文语义信息的动态词向量,引入Bio BERT后的模型不但能获得先验知识,更在缩短训练周期的同时降低计算量。其次,在模型交互层设计了多层次混合注意力机制,将问题与文章段落编码深度融合。Bio BERT模型的应用方法较为简单,无法将问题与文章段落的关联显式建模,因此本文基于注意力机制从模型角度进行了优化,在交互层设计了混合注意力机制,考虑了三种不同层次注意力,即双向注意力、Match-LSTM及融合注意力,更好地建立文章段落与问题之间语义信息联系。最后,模型输出层在处理factoid任务时利用LSTM层考虑答案起止位置的相关性。针对Bio BERT基线模型在处理factoid任务时解码层输出的答案起止边界相互独立的问题,利用LSTM层在答案起止边界之间建立联系,引入答案起始和结束位置的相关性。除此之外,处理factoid任务时损失函数引入标签平滑策略。由于生物医学领域数据集中专业实体名称较多,答案文本在文章段落中可能存在多答案的情况,因此引入标签平滑策略,对损失函数做出修正,通过赋予文章段落中除答案标签外的单词一定概率,提高模型的学习能力,同时避免过拟合。为验证本文方法的有效性,在生物医学领域数据集Bio ASQ的factoid任务及yes/no任务上分别进行了实验。结果表明本文提出模型在处理factoid任务时效果提升明显,在处理yes/no任务时略有提升。针对factoid任务,本文所提出的在预测答案结束位置时引入答案起始位置信息策略及在损失函数中加入的标签平滑策略均对模型效果提升具有一定作用。
其他文献
<正> 人类在发展过程中,为了要健康的生活和繁衍种族,就要不断地和危害生命的疾病作斗爭,这个斗爭也就是认識、了解、以及防治疾病的过程。随着人类物质文化的进步,这个认識过程也就日益深入。但由于处在不同的历史时
期刊
皮肤恶性肿瘤是一种常见皮肤疾病,在世界范围内都有发病案例,皮肤恶性肿瘤的种类很多,包括基底细胞癌、鳞状细胞癌以及恶性黑色素瘤等。在信息化的今天,合理使用计算机技术辅助医生进行皮肤恶性肿瘤的诊断具有重大意义。目前对于皮肤恶性肿瘤的分类诊断是使用人眼等直接观察,存在许多主观因素的干扰,为疾病的诊断增加了难度以及不确定性。因此,使用深度学习的图像分类技术配合其他技术手段,实现准确率高、分类速度快同时模型
学位
X-ray图像成像成本低,具有低辐射剂量,并对各种病理有着合理敏感性,因其高可用性,成为现代医学图像的“流量入口”。近年来,深度学习技术逐渐成为医学图像分析领域的自然选择,可以通过设计并实现不同的计算机视觉模型辅助解读医学图像,为医生提供可靠的第二诊断意见。胸部X-ray图像作为最常用的放射学检查,是筛查、诊断各种心、肺部异常的核心辅助手段。利用深度学习技术辅助胸部X-ray图像的解读,尤其是准确
学位
在当今的信息战争中,电子对抗越来越重要,其中最关键的环节就是电子侦察,它是电子战攻击和防御中的基石。在电子侦察中,雷达信号分选至关重要,是整个雷达侦察系统发挥作用的先决条件和保证。随着雷达通讯技术的发展,雷达的种类变多和雷达信号干扰和抗干扰技术的进步,导致雷达侦察系统所在的电磁环境日益繁杂。如何从稠密的雷达脉冲流中分选出不同雷达信号源的脉冲信号成为电子侦察领域备受关注的技术问题。雷达信号包含多种参
学位
<正>在解决大量就业岗位的同时,新就业形态也面临着一个异常复杂却又非常重要的议题——社会保险。7月13日,全国首份外卖平台企业全网集体合同在上海签订,共覆盖全国1.1万个配送站点、超过300万名外卖骑手。随着平台经济的发展,新就业形态劳动群体极速扩充。根据全国总工会的最新调查,这些与平台密切绑定的新就业形态劳动者已达8400万人。
期刊
研学旅行是当下很受欢迎的旅游业态,是乡村振兴需要的产业支撑和文化支撑。永州市文化底蕴深厚,非遗资源丰富,禀赋优异。但将非遗资源转化为经济优势还不够,非遗研学旅行发展不足,对乡村振兴的贡献不多。基于RMP理论梳理永州非遗研学旅行发展的现状,对非遗研学旅行产业发展认识不够、非物质文化遗产资源保护传承不力、非遗研学旅行产品内容设计和市场推广不足、非遗研学旅行评价和保障机制不完善、非遗研学旅行社区居民参与
期刊
目的:研究分析彩色多普勒超声诊断脑血管病患者颈动脉硬化的效果。方法:选择2018年12月~2019年12月本院收治的脑血管病颈动脉硬化患者50例作为观察组,同期选择到本院健康体检且结果没有脑血管病颈动脉硬化的志愿者50例作为对照组。同时给予100例研究对象彩色多普勒超声诊断,分析两组研究对象的颈动脉内膜中层厚度以及颈动脉硬化斑块情况,判断彩色多普勒超声诊断在临床中的使用价值。结果:观察组患者的左颈
期刊
当前,各高校不断创新文化育人方式,从文化自觉视野下重新认识高校文化育人的内涵,积极探索高校文化育人的实施路径。在新形势下,高校文化育人要为培育社会主义核心价值观服务,以立德树人为目标,从发扬大学精神、树立文化品牌、加强新媒体建设三个方面加快推进。
期刊
互联网中时时刻刻产生了海量的数据,其中产生的大部分是文本数据,具备丰富的信息。使用深度学习技术对文本数据进行挖掘、对文本中蕴含的情感进行预测和分析具有显著的商业价值和社会价值。细粒度情感分析是情感分析领域中的一个重要分支,在细粒度情感分析研究中,一条文本评论中包含多个评价对象(也称为方面),对不同方面进行情感极性的预测,可以形成对文本评论数据更精准、多维度的认知,应用前景广阔。准确判断句子中不同方
学位
遥感技术因其观测范围广、可周期重访且不受国界限制等特点,已成为对国内外重点关注地区进行常态化监控的重要手段。舰船作为海上重要运输载体与特殊军事力量,在促进经济发展、维护国家权益等方面发挥着非常重要的作用。利用遥感技术特有优势,对舰船目标开展检测识别与运动监测,无论是在渔业管理、航运安全、失事救援等民用方面,还是在监视敌方舰船兵力部署、掌握舰艇编队动态、评估战时海上毁伤效果等军事方面,均有着重要的现
学位