【摘 要】
:
为了快速记录海量病人的诊断信息,医生往往在病历中记录疾病简写或俗语等不规范的术语,再由专业人员对这些术语进行标准化,以便后续利用这些信息开展跨院交流、界定医疗保险等。因此,自动对病例中疾病的医学术语进行标准化成为了医疗领域的迫切需求。本文将中文ICD-9医学术语标准化问题分成两类情况处理,分别是一对一数据的标准化问题和多对多数据的标准化问题,主要工作如下:(1)针对一对一数据的标准化问题,本文首先
论文部分内容阅读
为了快速记录海量病人的诊断信息,医生往往在病历中记录疾病简写或俗语等不规范的术语,再由专业人员对这些术语进行标准化,以便后续利用这些信息开展跨院交流、界定医疗保险等。因此,自动对病例中疾病的医学术语进行标准化成为了医疗领域的迫切需求。本文将中文ICD-9医学术语标准化问题分成两类情况处理,分别是一对一数据的标准化问题和多对多数据的标准化问题,主要工作如下:(1)针对一对一数据的标准化问题,本文首先提出了一个基础模型BTSBM:1)基于N-gram算法取相似度最高的前N个(即Top-N)ICD-9术语构建候选术语集;2)采用BERT的0-1分类对候选术语打分,以候选术语被预测为标签1的概率中最高的一个作为标准术语输出。BTSBM模型解决了直接使用海量ICD-9术语与原始术语一一匹配而带来的高代价,也避免了ICD-9术语集中存在的大量与原始术语无关的干扰项对预测造成的干扰。但在这一方法中,候选术语集的规模与准确率对模型性能有着不可忽视的影响,同时由于候选术语集中至多只有一个是正确标准术语,导致了正负样本比例失衡。因此,本文随后提出了一个改进模型ABTSBM:1)对上述候选术语集进行基于BERT的重排序,在维持候选术语集规模不变的条件下提升其准确率;2)基于身体部位抽取对数据集降噪,减少干扰项并减小正负样本比例差;3)针对正负样本不平衡的数据集,使用基于Focal Loss函数的BERT进行术语标准化预测。(2)针对多对多数据的标准化问题,在使用ABTSBM模型取Top-N组成标准术语组合时,由于原始术语组合中各原始术语占比不一,将导致模型输出的结果中有多个标准术语均由同一原始术语而来,预测出现偏差。因此,本文提出了基于原始术语组合拆分的方法,通过将原始术语组合拆分成单个原始术语并通过命名实体识别和词性标注为原始术语补充缺失信息,以解决多对多的标准化问题。实验结果表明,针对一对一数据的标准化问题,在使用Top-40规模的候选术语集的条件下,ABTSBM方法达到了最优并比基于Top-100规模的候选术语集的BTSBM提高了1.6%的准确率;针对多对多数据的标准化问题,为了更好的评估多对多问题上的方法效果,本文基于CHIP公开数据集和某真实世界电子病历,构建了CHIP-MTM和SCD两个多对多数据集,本文算法在CHIP-MTM和SCD上均取得了7.7%的准确率提升。
其他文献
近年来,以星间链路技术为核心的低轨卫星网络发展迅猛,巨量卫星星座建设给空间电磁频谱资源管理与使用带来新的挑战,频谱资源稀缺、信号干扰复杂成为星间通信新常态。将认知无线电技术应用于星间通信环境,实现星间频谱资源动态分配,将有助于提高频谱资源利用率,增强星间通信的抗干扰能力。使用调制识别方法对星间信号调制特征进行识别可以为频谱资源动态分配提供基础数据,而经典的调制识别算法对复杂场景的适应性差,识别准确
成像导引头是成像制导武器的核心部件,主要担负复杂战场环境感知、目标识别、目标跟踪、干扰对抗和制导信息测量与解算等任务。其中,目标识别是成像导引头的关键技术之一,目标识别的识别率、精度和环境适应能力等性能直接决定了成像导引头及制导武器的作战使用和打击效果。目前,成像导引头主要采用以模板匹配为代表的目标识别技术,难以满足复杂战场环境带来的挑战。本文以成像导引头的研制为背景,研究基于深度学习的成像导引头
自适应光学系统中,波前传感器的准确性和鲁棒性极大地影响像差探测能力和校正效果。在波前振幅分布不均匀或信标光能量不足的情况下,哈特曼波前传感器由于存在子孔径缺光现象导致传感精度下降,而无波前传感自适应系统由于收敛速度较慢难以用于实时性要求较高的应用场景。如何实现复杂条件下近实时波前测量是亟待解决的实际问题。基于深度学习的波前传感可以看作一种新型波前测量方法,该方法利用系统中远场光强分布,反演得到近场
三维点云数据含有被测场景物体表面丰富的信息,具有海量、高密度以及高精度等特性,已成为用来理解、分析和语义解释三维自然场景的一种主要数据类型。其中,基于三维数据的复杂场景多态目标语义分割的研究具有重要的军事和民用价值。本文以室内三维点云数据和常见物品三维点云数据为研究对象,对三维点云语义分割问题展开了研究。本文的研究内容主要包括以下三个部分:(1)介绍了三维点云语义分割领域目前的发展现状,对当前国际
图像是网络时代信息传递的一种重要载体,相对于文字、语音等传统媒介,图像可以直观高效的获取信息。高分辨率(High-Resolution,HR)图像通常包含大量的图像纹理细节,因而可提供丰富的信息,具有更好的观感,便于人们更加准确、快速地获取所需信息,做出准确判断。但由于硬件采集设备和网络传输条件的限制,通常人们获取的图像多为低分辨率(Low-Resolution,LR)的。图像超分辨率重建(Sup
随着军事通信抗干扰技术的不断进步,通信质量愈发依赖于抗干扰手段。将盲源分离与通信抗干扰结合,能在接收端不具备或少量具备发射端的先验信息基础之上,通过使用接收端接收的信号经过一定的处理恢复出源信号而对通信干扰信号进行分离,从而实现抗干扰的目的,因此成为跳频通信、卫星通信等军事通信领域的研究热门。本文基于盲源分离理论,研究了多通道、单通道等条件下的通信抗干扰技术,为盲源分离抗干扰通信提供了新的思路。本
农药在世界范围内广泛用于改善粮食生产,满足全球人口逐年增加的需求。我国作为传统的农业大国,为了有效遏制大规模虫害,农药已被人们广泛的应用于农业生产中。新烟碱类农药,如吡虫啉(IMI)、噻虫嗪(THX)、呋虫胺(DNF)等,因其高效、低抗性,已被广泛应用于水果和蔬菜中防治刺吸式口器害虫。然而,不能忽视的是,大多数新烟碱类农药对环境和人类健康构成严重的化学污染威胁。到目前为止,各种分析方法已被用于新烟
Ge2Sb2Te5(GST)是最著名的硫系相变材料之一,它可以实现新型的、非易失性的、可擦写的纳米光电器件。本论文提出了三种基于GST相变材料的可擦写、非易失性的近、中红外亚波长吸收器。第一种是在近红外波段的对偏振和角度敏感的完美吸收器。数值模拟表明,在GST薄膜预先设计的晶化区域完全晶化状态下,会形成折射率光栅,在工作波段的共振峰处几乎可以实现超过0.99的吸收,明显高于GST薄膜处在完全非晶化
随着通信业务量激增,频谱、信道等通信资源愈发紧张。由此多样化的调制样式被用来提高有限频谱资源的利用率,但这也为信息的获取制造了困难。信号调制识别是从信号接收到信号解调的必要流程之一,其作用是对调制样式不明的通信信号进行处理分析得到其确切的调制方式,为之后的解调工作提供基础。现有关于调制识别的大多数技术一般都是基于决策理论和基于特征提取的。但这些方法存在一定的瓶颈与局限性,如复杂信道环境下识别准确率
信息剧增和对信息有效发掘利用的技术手段相对落后是现今大数据时代的突出矛盾,如何从海量信息中挖掘出能为我们所用的“知识”是时代赋予我们当下的又一新课题。本论文结合时代背景和由信息技术发展带来的新挑战与新机遇,以航母装备信息的基础知识图谱构建为研究目标,对于人工智能技术在军事领域的应用进行了新尝试。“知识”是知识图谱构建的关键。由于军事领域的信息具有知识专业性强、保密要求高的特殊性,军事装备知识图谱的