中文医学术语资源的自动构建方法研究及应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:looen01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学术语资源对于医学语言处理技术的发展至关重要。覆盖全面和定义良好的医学术语概念以及概念间的关系,是计算机自动处理医学文本实现信息提取、文本理解和知识发现等智能应用的重要基础资源。随着医疗信息化的发展,医疗领域积累了大量的以叙述性文本为主要形式的数据,这些临床文档和报告包含了大量不能从其它数据中获得的临床信息,自动利用这些数据是许多高水平临床应用的广泛需求。然而,目前中文医学术语资源稀缺,严重地影响了相关研究的发展和技术的采用。究其原因,大型医学术语资源构建工作耗时耗力而且需要持续的维护投入,这是中文医学术语资源构建中面临的巨大挑战。本论文针对以上问题,研究基于自然语言处理技术的中文医学术语资源自动构建方法,通过这些方法基于临床语料库构建了中文医学术语资源并开展了相关评估和应用,具体内容如下:首先,利用条件随机场的机器学习算法,结合临床自由文本中术语多样性的特点,设计了一个自动迭代的新术语发现算法,在给定轻量级特定语义类型种子字典的条件下,该算法可以从临床语料库中自动迭代发现新的同类语义术语。该方法能显著提高构建语义术语资源的效率,大大降低人工采集术语的时间成本与人力成本。其次,基于机器翻译技术实现UMLS中3个常用语义类型中文化,结合上述机器学习方法从大规模临床语料中学习获得的术语资源,构建了一个多语义类型的医学术语资源。通过随机抽样的方法,对构建的术语字典进行准确性的评估;在小规模临床语料库中对该字典进行了覆盖性的评估。评估结果表明该字典的准确性和覆盖性良好,为研究组进一步开展相关研究奠定了基础。最后,以构建的术语资源为基础,在临床语料库中展开了三个应用研究,即分析症状术语在语料库中的TF-IDF分布特征,建立了包含10292条症状一解剖部位关系对的知识库,分析了语料库的子语言模式、语义和词性分布特征。为深入理解临床文本的语法、语义和语用提供了定量的指标。本论文设计了快速高效的临床医学术语资源构建的方法,为在中文领域中开展大规模医学术语知识库建设提供了有力的计算工具,同时该方法体系也可以直接服务于很多医学语言处理技术过程,实现临床信息的高效利用。
其他文献
近年来,贺兰山国家级自然保护区生态环境破坏日渐突出,环境严重污染,煤炭资源过度利用,严重破坏了山区的植被,导致土壤沙漠化,水源涵养功能下降,其科研价值、生态价值、经济
研究目的:电极刺激视神经是用于恢复盲人视觉的一种实现方式。利用这种方式形成的视觉假体称为视神经假体。为了了解电极刺激视神经的作用机制,设计视神经假体和指导视神经假
本文对大小叶片和弯叶片的研究现状和发展前景进行了详细综述,并对数值计算方法中的控制方程、方程的离散和湍流模型进行了介绍。通过动叶采用大小叶片的技术,对具有大小叶
在新时代,全面推进依法治国成为我国重要的战略目标.青少年是祖国的希望,青少年思想道德水平和科学文化素质,对于实现我国发展战略,提升我国综合国力有着极其重要的作用.本文
当前的社会发展,对于教学工作提出了更高的要求,特别是在高职院校的发展中,为了更好地提升学生的综合素质,必须要开展高效的法律课程教学,从而适应时代发展的要求.但是在当前
高职院校是培养专业技术一线人才的摇篮,高职院校学生的行为、心理都关乎到国家未来的建设与发展.近年来高职院校学生违法乱纪行为时有发生,并呈现上升趋势,这里面有学生自身
互联网和大数据的兴起和发展,给人们的思维、生活和工作的方方面面都带来了极大的变革.新的时代条件下,信息纷杂多样,大学生网络思想政治教育面临重大机遇和挑战.因此,思想政
在神经手术导航系统中,术前辨认局部白质纤维束的移位方式以及重要血管的分布,将极大地有利于手术计划的制定。术中通过三维纤维束图像、三维血管图像与结构像的多模态融合,来引
本文以200/300MW汽轮机转子实验模型轴系为对象,以数学理论分析、计算机仿真、实验验证为手段,研究大型多支承单轴低频弯曲振动、扭转振动的主动控制问题,具体涉及多支承轴系