【摘 要】
:
21世纪被认为是生物医学的世纪。随着信息化技术和生物医学技术的发展,承载着人类知识和经历的医学文献以及以自然语言为载体的用户生成内容正呈现爆发式的增长。获取其中蕴含着的海量的、尚未得到充分利用的信息是以信息抽取为代表的文本挖掘技术在生物信息学中重要的研究和应用领域。其中生物医学事件作为对生物医学文本中实体及其相关概念间的多元关系,能够更加精确和细致的描述各种级别的医学、生物学作用和过程,使得围绕生
【基金项目】
:
国家重点研发计划项目课题“智能辅助检察办案关键技术研究”(2018YFC0830604),2018.7-2021.6;
论文部分内容阅读
21世纪被认为是生物医学的世纪。随着信息化技术和生物医学技术的发展,承载着人类知识和经历的医学文献以及以自然语言为载体的用户生成内容正呈现爆发式的增长。获取其中蕴含着的海量的、尚未得到充分利用的信息是以信息抽取为代表的文本挖掘技术在生物信息学中重要的研究和应用领域。其中生物医学事件作为对生物医学文本中实体及其相关概念间的多元关系,能够更加精确和细致的描述各种级别的医学、生物学作用和过程,使得围绕生物医学事件的研究成为近年的一项热点。本文研究关注于生物医学领域内事件研究中的两类基础任务,即事件检测及事件触发词的检测,针对社交媒体和医学文献文本数据的不同特点,着力解决检测任务中的相应问题。针对社交媒体文本中用户使用的多样表达形式,以及由之带来的未登录词问题,本文提出了一种结合字符级表示的深度神经网络方法用于事件检测。该方法通过引入字符级卷积神经网络学习社交媒体文本中不规则表示中蕴含的语义、词法以及情感信息。通过多通道的架构与词级别的向量化表示以及针对任务构造的其他特征共同用于神经网络模型的训练。实验表明该方法能够缓解单纯使用词级别表示的不足,相对于不同规模的预训练词表示均能够带来事件检测性能的提升。针对社交媒体文本标注资源规模小、噪声高的问题,本文提出了一种融合图嵌入的生物医学事件检测方法。该方法中社交媒体文本被构建为连通的图结构,从而在进行图上的序列采样过程中能够学习到更加丰富的文本上下文以及结构信息,弥补数据规模的不足。同时对抗训练方法被用来为训练样本添加微小的扰动,从而产生更具鲁棒性、适应噪声环境的检测模型。实验表明该方法能够较为显著的增加基于小规模语料集训练得到的事件检测模型的性能。同时该方法对于不同深度学习模型均能带来性能提升,具有较好的泛化能力。针对传统生物医学事件触发词检测方法过于依赖特征工程,以及由之带来的泛化能力不足的问题,本文提出了一种领域特征无关的事件触发词检测方法。该方法不依赖于此前研究中常用的第三方特征抽取工具或根据事件类型设计的特征。在特征抽取部分,仅从词表示、位置特征、词性特征等少数通用特征出发,利用卷积神经网络及注意力机制抽取更高层次的特征表示。在分类器部分,采用具有更强预测和泛化性能的极限学习机方法进行触发词预测。实验表明该方法能够在多种包含不同类型事件的语料集上取得良好的综合性能。针对生物医学文献中的事件类型繁多,不同类型样本数量差异巨大,造成的数据不平衡问题,本文提出了一种敏感度可控的事件触发词检测方法。该方法在特征抽取部分采用卷积神经网络与循环神经网络相结合的架构,由卷积神经网络抽取局部的特征再由双向长短时记忆网络抽取更长跨度的上下文特征。在触发词预测部分,采用了一种敏感度可控的支持向量机方法,通过改进目标函数,使得模型更加关注于少数类型样本的相关特征。实验表明该方法能够较好的平衡模型的精确率与召回率,在不平衡的数据集上取得了较好的触发词检测性能。
其他文献
棉花是世界上重要的经济作物与纺织原材料之一,提高其产量、纤维品质和抗逆性始终是育种工作的重要目标,但这些性状都是复杂的数量性状,受微效多基因和环境的共同作用,遗传机理复杂。目前,国外棉花育种工作已经进入常规育种手段与分子标记辅助育种相结合的3.0育种时代。我国棉花育种工作者利用常规育种手段已经培育出一些产量、品质和抗逆性等综合性状优良的品种并在生产中发挥出重要作用,但利用分子育种进行品种改良与国外
里德堡原子(Rydberg atom)由于其相关实验的快速进展和广泛的应用前景引起了人们极大的关注。里德堡原子指的是原子中外层电子被激发至主量子数(n)很大的高激发电子态的原子。由于里德堡原子的外层电子远离原子核,它具有普通低激发态原子不具备的一些独特性质,如原子尺寸大,寿命长,电偶极矩大,极化率大等特点。此外,里德堡原子之间的偶极-偶极相互作用能在12个数量级的范围内进行调控。这些独特的性质使得
曲线梁桥由于其良好的线形适应性,在公路和城市道路建设中被大量采用,但由于其复杂的空间受力特性以及缺少针对性的设计指导规范,一方面导致了该桥型在实际工程中被谨慎的应用,另一方面也导致了部分曲线梁桥病害的发生。随着国家经济与交通建设水平的发展,为了使曲线梁桥这一桥型得到更为广泛应用,从而更好的服务于国家交通建设需要,因此有必要对该桥型展开更为深入的研究,以补充和完善该桥型的设计理论。本文通过模型试验、
煤、生物质气化技术是推进煤炭清洁高效利用、提高可再生清洁能源利用量的关键技术之一,焦-CO2气化反应是煤、生物质气化反应的速控步骤,焦-CO2气化反应动力学研究是煤、生物质气化炉设计与优化的基础。热重分析仪(TGA)是焦-CO2气化反应动力学研究中最常用的热分析仪器。然而,基于TGA的常规热分析方法存在难以消除的交叉耦合传质效应,影响动力学结果的可比性。钙基催化剂由于其高催化活性及低成本成为煤、生
环境和能源是人类目前面临的两大问题。CO2是主要的温室气体,同时也是最丰富的C1资源。在众多的CO2转化技术中,光还原CO2利用储量丰富的太阳能,在光催化剂的作用下,将CO2转化成有价值的碳氢燃料,是一种最有前景的转化CO2的方法之一。光还原CO2仍然面临很多的挑战,其中催化效率低是最大的瓶颈。最主要的原因在于对光还原CO2机理的研究不足:首先很少有人通过光物理过程来研究电子和空穴的复合;其次光化
随着近年来信息技术的发展,互联网上的各类内容和信息与日俱增,信息过载现象越来越明显。个性化推荐系统作为缓解信息过载问题的主要方法之一,越来越受到各大互联网平台的重视。推荐系统的核心思想是根据物品和用户的特征以及用户的历史行为记录等信息,推测用户的个性化偏好并自动地给用户推荐其感兴趣的物品。其中用户的历史行为记录最能直接地反映用户对物品的喜好,也是推荐系统建模中最核心的部分。不同于传统的静态推荐方法
选择性激光烧结(Selective Laser Sintering,SLS)是一种基于粉床的激光增材制造技术,其具有材料利用率高、工艺流程短、可制成复杂形状零件等显著优势,近年来在砂型激光增材制造领域得到广泛应用。随着我国铸造行业的不断升级、提效,铸件尺寸不断增大,常规SLS技术在加工幅面、效率、强度等方面难以满足行业需求。本文为突破常规SLS法中低激光功率、窄线宽扫描导致的加工效率低的瓶颈,并合
近年来,受气候变化影响,作为“亚洲水塔”的青藏高原地区冰川退缩,雪线上升,冻土层退化,对当地水资源的综合利用与环境保护提出更加严峻的挑战。在青藏高原地区,季节性冻土与多年冻土并存,雨季径流水源构成多样,水源的空间组合特性和汇流路径较为复杂,加之基础资料相对缺乏,使得其河道径流的水循环规律一直未得到清晰的揭示,难以科学制定当地水资源利用与环境保护决策,因此,深入研究当地径流补给来源与汇流路径两个水循
波浪的传播和破碎是海洋工程中的重要研究课题。现有的波浪在地形上的破碎指标大多针对二维地形条件,并基于单向的规则波或不规则波浪,忽略了地形纵向的变化。而实际海域中的地形条件往往较为复杂,并且波浪是多向的不规则波浪,因此针对多向不规则波浪在三维地形上的传播和破碎特性进行研究,对于实际近岸波浪特性及其与工程结构物作用的研究具有重要的意义。此外,波浪破碎现象的数值模拟研究是一个重要的课题。在采用OpenF
本文利用国有资本收益上缴的独特场景,研究上市公司控股股东流动性约束对企业财务行为的影响。2019年党的十九届四中全会明确提出,要做强做优做大国有资本,形成以管资本为主的国有资产监管体制,而国有资本收益上缴制度就是很重要的关键政策。2007年9月8日国务院发布的《国务院关于试行国有资本经营预算的意见》指出,国有资本经营预算是国家以所有者身份依法取得国有资本收益,并对所得收益进行分配而发生的各项收支预