中文病历文本的时间信息提取研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:pipi783
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着临床信息化的发展以及电子病历、临床决策支持等临床信息系统的逐步采用,面向病历文本的文本挖掘和信息提取研究成为医学信息学研究的热点。由于时间信息在病历文本中的较高出现频率,病历文本中的时间信息及其关系提取对于实现医疗信息结构化,促进临床决策支持、医疗信息挖掘等信息综合利用具有重大意义。因此,本论文面向中文病历文本,针对时间表达识别、时间信息规范化和时间关系提取三个关键问题开展研究。时间表达识别作为时序语义标注的关键技术之一,其结果的好坏直接影响时间信息提取的效果,因此专门针对医学病历语料的时间表达识别研究是进行中文病历文本中时间信息提取的必经阶段。本论文对涵盖30多个科室的147份实际病历中的时间表达进行统计并分类,提出了基于一套时间正则表达式和相邻匹配原则的中文病历文本时间表达自动识别方法,实验表明该方法能基本覆盖病历文本中的时间表达信息。时间信息规范化是后续开展时间推理的基础,针对时间表达识别的结果,本论文提出了中文病历文本中时间信息参考时间的选取规律,针对不同种类时间信息采用不同的参考时间选取规则,计算出病历文本中所述时间信息在日历中的表示,并参考国际时间标注标准制定了针对医学领域的时间规范化表示方法,实现了时间信息的规范化,为病历文本中时间信息的后续利用提供标准化数据,该方法可涵盖病历文本语料中96%以上的时间信息,正确率可达91%。建立医疗事件与时间信息的关联是开展病历文本中时间信息自动利用研究的驱动力,为此本论文提出了一种基于条件随机场(CRF)的时间关系自动提取算法。该机器学习方法以经过医学问题和时间信息规范化表示结果进行标注的病历文本为训练内容,时间关系结果标注采用以医学问题为中心的模式,即仅提取所关心医学问题的时间属性。在此方法框架下本论文以63份实际病历作为实验文本深入分析了不同的CRF学习模板对于时间关系提取的影响,提出了时间关系提取中CRF学习模板设计的一般规律,实验中最佳模板情况下关系提取正确率可达86.94%。本论文通过以上三部分的有机结合,初步建立了中文病历文本中时间信息及时间关系的自动提取方法,取得了良好的提取结果。
其他文献
城市品牌形象主要通过大众的综合体验感受以及大众对城市品牌建设的参与互动而获得,强调城市的主体人在其主导意义.而解构形态在城市品牌形象招贴设计过程中重视大众的参与度
O2/CO2燃烧技术作为一种新型的碳捕集技术发展迅速。在富氧燃烧湿烟气循环过程中,CO2和H2O为主要燃烧气氛的组分。CO2、H2O与N2在性质上存在较大差别,对燃烧产生重要影响。目
本文首先通过实验研究了多排直角三角翼对纵向涡发生器强化恒热流竖直平板自然对流的换热效果。然后利用数值模拟计算软件对实验进行了模拟,并进一步通过数值模拟研究了多排直
电站燃煤锅炉受热面积灰结渣对机组的安全经济运行有重大影响。尽管通过有效的吹灰可以增强电站运行的经济性,但对吹灰的优化控制却实践较少。已有的电站锅炉吹灰系统大多采用
品牌专业建设是推进高等职业教育高质量发展与可持续发展的重要抓手.主流国际认证的自证体系、使命驱动、持续改进以及重视创新性、影响力和参与度的理念,对于品牌专业建设具
随着教育信息化的不断深入,电子信息化已经成为带动教育现代化、智能化,实现教育跨越式发展的重要手段.智慧教室的构建与应用对于教学内容的呈现方式、学生的学习方式、教师
开口方腔的对流换热问题是一基本的物理现象,工程技术上的许多问题都可以简化成这一基本问题的求解。本文从探讨这一问题的物理原理出发,推导其基本控制方程,为了更深刻的分
随着教育事业的不断发展,各高校越来越重视对自身校园文化的有效建设.而世界高校教育发展规律显示,具备明显特色的校园文化可以对高校自身的办学质量与水平进行体现,标志着高
超声医学成像是医院最常用的成像技术之一,具有高性价比,无辐射损伤等许多优点,但是衍射噪声大、成像分辨率低。许多研究认为超声的上述缺点是由于点扩散函数造成的,本论文利用盲
多孔介质中自然对流的现象普遍存在于日常的生活和工农业的生产中,具有很强的应用背景。本文根据局部非热平衡模型和达西模型,分别采用Garlerkin近似法和数值求解法,针对同时