基于SNOMED-CT的医疗文本脱敏及优化研究

来源 :天津理工大学 | 被引量 : 0次 | 上传用户:li9599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国家深入推进互联网强国战略,使得电子医疗系统和电子病历被广泛使用,其在推动医疗信息共享的同时也增加了患者隐私泄露的风险。因此,需要进行积极主动风险管控,对医疗文本在流通和利用前进行脱敏处理,高效、安全、合理的发挥医疗数据价值,这不仅符合法律法规的要求,也能够减小医疗数据泄露给病患带来的危害。医疗文本作为医疗信息的载体,以症状、治疗方法、用药情况等相互联系的专业医学术语为主要内容,其术语不具有规律性结构、表达方式多样,同时语义信息关联复杂。针对医疗文本的特殊性,本文重点对基于语义的医疗文本脱敏展开研究,通过优化自动脱敏流程和改进相关算法,达到提高脱敏效率和脱敏后文本实用性的目标。本文主要研究工作如下:(1)医疗文本中往往包含很多否定敏感词,这些敏感词一般不存在暴露隐私的风险,若不对具有否定意义术的语进行识别和清理,会使脱敏效率降低和脱敏后文本实用性降低。针对此问题,本文提出带否定处理的医疗文本自动脱敏流程,在脱敏前对医疗文本中含否定意义的术语进行自动识别,避免不必要脱敏处理;同时,在敏感术语泛化阶段,充分考虑术语库结构特征,优化敏感术语替换词查找策略,进一步改进脱敏效果。对从PubMed中选取的60篇高度敏感文章进行脱敏实验的结果表明,采用本文提出的处理流程与不带否定处理的脱敏流程相比,医疗文本脱敏时间平均缩短了34.68s,脱敏后文本的实用性平均提高了6.86%。(2)由于医疗文本语法结构复杂,采用经典NegEx算法进行否定识别时存在否定触发词识别不全、否定覆盖域界定不准确问题。本文针对上述问题对NegEx算法进行了改进,通过分析BioScope语料库扩展否定触发词列表,并利用否定终止词实现否定覆盖域动态界定。在标注了否定焦点词的BioScope语料库上进行实验对比,采用优化后NegEx算法其否定焦点词识别能力比原来提高了4.13%。(3)SNOMED-CT是国际标准医学术语集,利用SNOMED-CT术语库查找敏感术语替换词,既可降低敏感性又保证语义效用,但由于SNOMED-CT库中一个敏感术语可能属于多个概念,一个概念拥有多个特征描述,带来替换词查找效率偏低和泛化后文档实用性差问题。本文在充分考虑SNOMED-CT术语库结构特征基础上,提出基于SNOMED-CT术语库的替换词查找算法,利用语料库概念间的IS-A关系以及概念描述的同义词信息查找敏感术语替换词,同时利用概念间的语义关系进行剪枝提升替换词查找效率和精准度,并设定泛化最低阈值保证替换词的语义效用。在从PubMed中选取的60篇高度敏感文章上的实验表明,与传统替换词查找算法相比,采用本文提出的查找算法能使查找时间平均缩短29.31s,脱敏后文本的实用性平均提高了5.64%。
其他文献
随着人们对自主水下航行器高机动性、长时间续航、节能甚至隐身的要求越来越高,基于生物系统思想的仿生两栖机器人在适应水下、陆地和空中环境中表现出更好的特性,并且两栖机器人在水域巡逻、军事侦擦、环境监测、资源开发等方面被广泛应用。而路径规划是实现这些任务不可或缺的重要技术。仿生机器人的核心问题包含了路径规划,同时也是体现人工智能的重要因素。路径规划则是在充满各种各样的障碍物环境中,能够找到一条从起始点开
为了实现碳达峰、碳中和的目标,开发新型清洁能源是未来可持续发展的关键。作为清洁能源转化利用的重要载体,燃料电池技术由于其清洁、高效、功率密度高等特点,已成为传统化石能源动力的理想替代者,其中氢燃料电池技术是当前发展的主流方向。针对当前氢燃料电池存在的成本高、稳定性差的问题,降低电极材料中Pt族金属用量、提高催化活性及结构稳定性是目前氢燃料电池电极催化剂研究的关键。基于纳米多孔金属薄膜具有的独特的超
随着深度学习技术的日益发展,计算机视觉逐渐成为了人工智能领域最为重要的研究领域之一,目标检测是计算机视觉领域中极具挑战性的核心研究方向。目标检测是指利用视觉信息中的高级特征来对目标的类别、尺寸与位置进行预测。在二维与三维场景中运用目标检测技术已经是安全防控、智能驾驶等行业的关键一环。为了在不同场景中实现目标检测技术精度与速度的平衡,本文对基于深度学习的2D/3D场景目标检测算法进行了研究与分析。论
La2CaB10O19(LCB)晶体是一种具有很高潜在价值的硼酸盐非线性光学晶体,具有较大的非线性光学系数、激光损伤阈值高、不潮解以及紫外波段透过率高等优良性能。LCB的I类相位匹配的最短倍频输出波长为288nm,限制了其在紫外波段应用,通过掺杂离子半径较大的Sr2+来调节晶体的双折射,实现更短波长的倍频输出以实现在四倍频激光的输出。本论文对LCB进行Sr2+掺杂,生长获得大尺寸Sr:LCB单晶,
在实际应用中,金纳米颗粒(Au NPs)的表面效应导致纳米颗粒的团聚生长和形状变化广泛存在。然而到目前为止,相关的研究很少提供团聚过程中原子水平的运动信息,对原子尺度上Au NPs微观结构演变过程的认识仍不明确,这将不利于Au NPs的结构优化和性能调整,因此利用原位技术追踪在相关条件下纳米颗粒发生的动态变化非常必要。本文利用高时空分辨率的原位透射电镜技术,对原位气相条件下Au NPs的动态演变过
风力发电的快速发展为解决能源危机和环境污染问题带来了可能性,但分布式的风力发电机组的大量接入会对电网的稳定性带来挑战,故电网对风力发电机组的接入提出了要求,其中,低电压穿越(LVRT)能力是一项重要的指标。电网电压的故障跌落会造成直流母线电压的波动,严重情况下可能会破坏变流器和直流母线器件等,甚至造成永磁直驱风力发电机(PMSG)的脱网运行。故文中为了提高直流母线电压的暂态特性,增强PMSG的LV
模数转换器(ADC)是连接模拟世界与数字设备的桥梁,它的性能逐渐成为模数混合系统性能的决定因素。随着5G通信技术的到来以及物联网时代的发展,对高速高精度ADC提出了更高的性能要求。逐次逼近型ADC具有低功耗的优势,但速度受到结构的限制,精度受限于电容失配以及热噪声;流水线型ADC具有高速高分辨率的优势,但功耗大,分辨率每增大1bit,余量放大器多一级,相应的功耗也增大一倍。而流水线逐次逼近型(Pi
调度问题一直伴随着实际生活的方方面面,合理的调度策略对工业、医疗、物流、航空等各个领域的管理至关重要。随着近几年COVID-19的爆发,引发了各地医疗卫生机构对预约调度的思考,大型医疗机构为避免交叉感染采取线上预约的方式进行。但是大部分医疗机构只是简单的将先来先服务策略变为线上操作,并没有考虑患者之间的差异和随机事件的干扰。这常常会带来医疗机构运行混乱、医疗资源的浪费和医患关系的紧张。而要解决这个
半月板撕裂是膝关节疼痛的常见原因之一,也是膝盖机械性疾病中最常见的疾病。它会影响患者的日常生活,如果没有及时治疗会导致关节损伤,甚至会诱发骨关节炎等其它并发症,因此对于半月板撕裂的早期诊断至关重要。随着医学成像技术的发展,磁共振成像(MRI)技术凭借无创、敏感性强、分辨率高等优势,目前已经广泛应用于半月板损伤的诊断及研究中。然而,受医生临床经验等主观因素的影响,半月板的诊断常常出现漏诊或误诊现象。
超级电容器是一种功率密度高、维护成本低的电化学储能装置,其弥合了电池与传统电容器之间的差距。与一般储能材料相比,由多层类似富勒烯的石墨壳组成的碳纳米洋葱(Carbon nano-onions,CNOs)由于其的独特的结构、优异的稳定性和机械强度等,被认为是超级电容器电极的理想材料。但目前合成的CNOs,主要是单分散大尺寸结构,会导致其相互之间的导电性不理想,电容减小;高度石墨化也使其比表面积相对较