论文部分内容阅读
随着临床信息化的发展以及电子病历、临床决策支持等临床信息系统的逐步采用,面向病历文本的文本挖掘和信息提取研究成为医学信息学研究的热点。由于时间信息在病历文本中的较高出现频率,病历文本中的时间信息及其关系提取对于实现医疗信息结构化,促进临床决策支持、医疗信息挖掘等信息综合利用具有重大意义。因此,本论文面向中文病历文本,针对时间表达识别、时间信息规范化和时间关系提取三个关键问题开展研究。时间表达识别作为时序语义标注的关键技术之一,其结果的好坏直接影响时间信息提取的效果,因此专门针对医学病历语料的时间表达识别研究是进行中文病历文本中时间信息提取的必经阶段。本论文对涵盖30多个科室的147份实际病历中的时间表达进行统计并分类,提出了基于一套时间正则表达式和相邻匹配原则的中文病历文本时间表达自动识别方法,实验表明该方法能基本覆盖病历文本中的时间表达信息。时间信息规范化是后续开展时间推理的基础,针对时间表达识别的结果,本论文提出了中文病历文本中时间信息参考时间的选取规律,针对不同种类时间信息采用不同的参考时间选取规则,计算出病历文本中所述时间信息在日历中的表示,并参考国际时间标注标准制定了针对医学领域的时间规范化表示方法,实现了时间信息的规范化,为病历文本中时间信息的后续利用提供标准化数据,该方法可涵盖病历文本语料中96%以上的时间信息,正确率可达91%。建立医疗事件与时间信息的关联是开展病历文本中时间信息自动利用研究的驱动力,为此本论文提出了一种基于条件随机场(CRF)的时间关系自动提取算法。该机器学习方法以经过医学问题和时间信息规范化表示结果进行标注的病历文本为训练内容,时间关系结果标注采用以医学问题为中心的模式,即仅提取所关心医学问题的时间属性。在此方法框架下本论文以63份实际病历作为实验文本深入分析了不同的CRF学习模板对于时间关系提取的影响,提出了时间关系提取中CRF学习模板设计的一般规律,实验中最佳模板情况下关系提取正确率可达86.94%。本论文通过以上三部分的有机结合,初步建立了中文病历文本中时间信息及时间关系的自动提取方法,取得了良好的提取结果。