中文电子病历实体关系抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gaoHolly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗健康服务不断向信息化、智能化发展,电子病历开始逐渐在医疗健康事业中发挥作用。电子病历对个人的诊疗过程有比较详细的记录,包含大量的医疗知识,有效地挖掘并利用这些知识对于医疗健康事业的发展有重要作用,挖掘电子病历中知识的主要途径就是信息抽取相关的技术,其中关系抽取是电子病历信息抽取中的重要部分。本文研究主要研究中文电子病历的关系抽取方法,在中文电子病历中除了大量医疗相关的知识外,还包括与患者、医生等相关的隐私信息,为了保护这些隐私信息,需要在对电子病历进行关系抽取前对其完成去隐私,即找到电子病历中的隐私信息并将其替换。制定了隐私信息标注规范并标注了100份电子病历,使用条件随机场(CRF)完成了隐私信息识别模型的构建,识别的F值达到96.9%。在关系抽取方面,本文使用了992份经去隐私的已标注中文电子病历,首先实现了基于特征的关系抽取方法,通过抽取一些基本特征以及中文电子病历中一些特有的特征,训练支持向量机(SVM)单分类器并分析了实验结果。然后针对单分类器中关系大类的误分类情况,将单分类器分解为多个分类器用于处理指定关系大类下的样本,改进后的方法关系识别的F值达到73.4%同时减少了训练及测试的时间消耗。中文电子病历的文本具有结构相似的特点,从此角度出发使用基于树核函数的方法对中文电子病历进行关系抽取的探索,将样本表示为句法分析树并由计算两棵树中相同子集树的数量的方式得到样本间相似度,利用这样的子集树核函数训练SVM多分类器,最终对关系识别的F值达到61.4%。中文电子病历的文本特征与结构相似性对关系抽取都有重要作用,本文在扩展基于特征的方法与基于树核函数的方法的特征空间的基础上,对两个方法相应的核函数进行了结合,得到特征与树核函数结合的方法,并使用组合后的方法完成了关系抽取,通过改变两种方法的权重调整模型的效果以及对比实验结果可以看出,特征与树核函数结合的方法关系识别效果最佳,F值达到75.9%,但仍有部分实体关系的识别效果还比较低,有待进一步改善。
其他文献
研究背景多囊卵巢综合征(polycystic ovary syndrome,PCOS)是妇科的常见病和疑难病,pcos临床主要表现为月经失调、多毛、肥胖及不孕。自从1935年Stein和Leventhal首次报道本