基于中文电子病历的冠心病危险因素抽取方法研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:csss2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
冠心病是危害人类健康的重要疾病,患者的电子病历中蕴含着大量如高血压、糖尿病等危险因素的描述信息,准确抽取这些描述信息对临床研究和辅助临床诊断具有重要意义。目前,基于英文电子病历的冠心病危险因素抽取已经开展了大量工作,而基于中文电子病历的抽取研究则相对较少,因而研究中文电子病历的冠心病危险因素抽取十分必要。本文综合运用自然语言处理的多种技术,在构建语料库的基础上,研究冠心病危险因素的抽取方法,为临床实验提供参考。本文的主要贡献有:(1)制定了适用于中文电子病历的冠心病危险因素语料库的标注指南,完成了语料库的构建。在对新疆某三甲医院提供的500名冠心病患者的出院小结预处理的基础上,参照2014年美国临床信息学研究中心I2B2发布的冠心病危险因素标注语料库,制定了标注指南并开发了危险因素语料库标注工具;由两名临床医生完成了预标注和正式标注工作。经过三轮预标注和一轮正式标注后,标注一致性IAA达到了0.95,结果表明标注具备可靠性。(2)提出了一种混合式冠心病危险因素抽取方法。针对所构建语料库中危险因素标识数据存在不平衡问题,分别采用基于规则和机器学习的方法实现抽取。对标识数据分布较多的危险因素,运用条件随机场CRF与双向长短时记忆神经网络Bi-LSTM结合的模型进行抽取;对标识数据分布较少的,则借助基于规则的方法完成。分组抽取有助于克服描述信息不平衡导致的模型泛化能力差、容易发生过拟合的缺点,实验表明混合式抽取方法的F值为0.882,高于单一方法、单一分组抽取结果。(3)为进一步提高准确率,针对标识数据较多的危险因素,提出一种改进的多任务Bi-LSTM-CRF的抽取方法。使用分词数据构建词向量,将抽取任务与分词任务相结合,在抽取过程中共享分词中所获取的词边界信息,为抽取提供更多的特征集。两种任务均采用Bi-LSTM-CRF模型对危险因素进行了抽取,实验表明F值为0.885,远优于单独使用Bi-LSTM-CRF模型抽取结果0.865。
其他文献
<正>云南楚雄读者杨某来信说:我好友今年35岁,自2001年至今,先后在本地县医院4次查出乳腺纤维瘤并进行手术,最近一次手术在今年8月份。术后医生告诉她,即
海底沉积物环境下钢铁的腐蚀和防护问题由于人们对海洋的广泛的开发和利用而逐渐引起人们的注意。本文对钢在海底沉积物中的腐蚀行为进行了模拟海底沉积物环境下的失重实验和
<正>项羽是一位人们熟知的历史人物。过去,人们常用“楚霸王”代替了他的名姓,甚至把他渲染成为传奇式的英雄。司马迁在《史记.项羽本纪》里作过推想,他说:“吾闻之周生曰‘
目的:社区卫生服务人员通过一系列持续不断的措施,提高社区居民对高血压疾病认知的主动性和治疗的依从性。方法:通过社区卫生服务人员利用开展高血压一级预防、健康教育、生
现有"像素级"的真正射影像纠正方法由于没有充分考虑地物特征和影像像素间的关联关系,导致对DSM分辨率十分敏感,难以保持地物轮廓边缘特征的准确性和纹理结构的完整性,遮挡恢
以煤为原料通过CO甲烷化反应生产天然气具有热值高、转化率高、经济效益好和工艺路线简单等优点,并可作为生产替代日趋紧张的石油资源的重要手段,已越来越受到人们的关注,因
在快速城市化和城市生态文明建设背景下,生态安全视域下的城市空间格局研究成为城市学与生态学研究的重点之一。随着研究的深入及生态学与城市研究的融合,城市生态空间格局研
目的探讨肝脏原发性神经内分泌肿瘤(primary hepatic neuroendocrine neoplasm,PHNEN)的临床病理学特征、诊断、鉴别诊断、治疗及预后。方法回顾性分析10例PHNEN患者的临床病
目的探究干扰素α治疗慢性粒细胞白血病(CML)患者后相关细胞因子水平的改变情况。方法将2012年5月至2014年5月天门市第一人民医院收治的120例CML的患者按照随机数字法分为观
受俄罗斯社会自由化思潮的冲击,俄语语言规范在词汇、构词、修辞等方面都出现了一定程度的动摇。其中比较明显的表现为:俄语中大量涌入了俚俗语等低标记词汇。特别是对于正在