生物医学文献中的药物名抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhuliner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,越来越多的生物医学研究成果在互联网上发布,如科学文献和专利等文本数据的规模正在以指数级的速度快速增长。这些数据以非结构化形式存储,其中包含了很多与化合物和药品相关的知识,例如化合物和药品的靶向目标和结合关系、新陈代谢、酶反映以及潜在的副作用和治疗用途等等。如何获取并利用这些蕴含在文本中的知识对相关研究和应用有重大意义,首先需要解决的问题是如何高效地完成海量非结构化文本数据中的药物名(包括化合物和药品)抽取工作。在此背景下,本课题主要对解决生物医学文献中药物名抽取问题的方法做了相关研究。本课题的研究工作主要包括以下三个方面:第一,针对药物名实体的特点设计了一个丰富有效的特征集合,使用条件随机场和结构化支持向量机,实现了基于领域特征的药物名抽取方法。在对化合物和药品实体的特点深入分析的基础上,我们通过对比实验选取了一个有效的特征集,不但有基本的领域特征,还包括词表示特征。最终,在Bio Creative V CEMP评测任务的数据集上,基于条件随机场的系统和基于结构化支持向量机的系统分别取得了0.8704和0.8761的F1值。第二,研究使用深度学习解决药物名抽取问题的方法。传统的机器学习算法来解决命名实体抽取问题,通常系统的性能与特征的好坏有很大关系,深度学习作为一种能够自动学习特征的机器学习方法,对很多问题更具有适用性。本课题利用循环神经网络的时序化结构来解决药物名抽取问题,最终采用循环神经网络和条件随机场结合的方法,系统F1值达到0.8876,优于常用的条件随机场算法和标准的循环神经网络方法。第三,在领域特征方法和深度学习方法的基础上,采用层叠泛化的集成学习方法对其进行融合,实现了基于层叠泛化的药物名抽取方法。本文使用领域特征方法和深度学习方法构造初级学习器,通过对他们抽取结果的分析,设计了一套表征他们之间差异性和一致性的特征集,使用线性核支持向量机方法构建元学习器,实现对初级学习器的集成,最终基于层叠泛化方法的F1值达到0.8906。本文研究并实现了解决生物医学文献中药物名抽取问题的方法。实验结果表明,本论文中的方法能够有效地从非结构化文本数据抽取出药物名等信息。
其他文献
随着计算机技术、Internet技术的不断发展和信息处理技术在各个领域中的广泛采用,现代企业面临的系统环境越来越复杂,使用的应用系统的数量也越来越多。这些应用系统可能是使
对于无线传感器网络这种新型的分布式网络系统,时间同步技术是至关重要的。传统的能够良好应用于Internet的NTP(Network Time Protocol)协议和与世界标准时间UTC(Universal T
随着网络入侵事件的不断增加和黑客攻击水平的不断提高,一方面网络病毒泛滥、遭受攻击的速度日益加快,另一方面网络受到攻击做出响应的时间却越来越滞后。解决这一矛盾,传统
随着社会经济的发展和科学技术的进步,特别是城市人口的急剧增加和城市化进程的飞速发展,大空间场所会越来越多。由于大空间场所火灾具有传播速度快、灭火和营救都比较困难等特
图像分割(Image Segmentation)是将图像划分成若干具有特征一致性且互不重叠的图像区域的过程。图像分割技术长期以来得到人们的广泛关注和研究。皮肤分割也是图像分割中一个
计算机及网络的发展对我国考试系统的改革起到了举足轻重的作用,网络报名、网络考试、网上报志愿、网络阅卷等新模式的引入极大地推动了考试系统的发展和完善。其中,网络阅卷是
目前,针对恶意代码传播建模的主要研究方法为数学微分动力学方程,但该方法形式变化有限,灵活性欠佳,不同模型之间节点变换大同小异,得出的演化结果趋势也大致相同,实质上并没
近年来随着新需求、新技术不断涌现,传统的单一网络提供的业务已不再满足用户对业务的需求,跨网融合业务的出现已成为趋势。在实现融合业务过程中,会话控制系统是重要保障。
本体能够解决特定应用中的知识共享问题,因而在实际应用中,不同用户和团体常常根据不同的应用需求与应用领域构建或选择合适的本体,使本体所描述的内容在语义上往往重叠或关
众所周知,K-means聚类是数据挖掘中非常经典和常用的方法之一,它通过计算数据项之间的距离可以把相似的数据项聚集在一起。随着信息化、数字化、网络化进程加速,经济全球化已