论文部分内容阅读
医学术语资源对于医学语言处理技术的发展至关重要。覆盖全面和定义良好的医学术语概念以及概念间的关系,是计算机自动处理医学文本实现信息提取、文本理解和知识发现等智能应用的重要基础资源。随着医疗信息化的发展,医疗领域积累了大量的以叙述性文本为主要形式的数据,这些临床文档和报告包含了大量不能从其它数据中获得的临床信息,自动利用这些数据是许多高水平临床应用的广泛需求。然而,目前中文医学术语资源稀缺,严重地影响了相关研究的发展和技术的采用。究其原因,大型医学术语资源构建工作耗时耗力而且需要持续的维护投入,这是中文医学术语资源构建中面临的巨大挑战。本论文针对以上问题,研究基于自然语言处理技术的中文医学术语资源自动构建方法,通过这些方法基于临床语料库构建了中文医学术语资源并开展了相关评估和应用,具体内容如下:首先,利用条件随机场的机器学习算法,结合临床自由文本中术语多样性的特点,设计了一个自动迭代的新术语发现算法,在给定轻量级特定语义类型种子字典的条件下,该算法可以从临床语料库中自动迭代发现新的同类语义术语。该方法能显著提高构建语义术语资源的效率,大大降低人工采集术语的时间成本与人力成本。其次,基于机器翻译技术实现UMLS中3个常用语义类型中文化,结合上述机器学习方法从大规模临床语料中学习获得的术语资源,构建了一个多语义类型的医学术语资源。通过随机抽样的方法,对构建的术语字典进行准确性的评估;在小规模临床语料库中对该字典进行了覆盖性的评估。评估结果表明该字典的准确性和覆盖性良好,为研究组进一步开展相关研究奠定了基础。最后,以构建的术语资源为基础,在临床语料库中展开了三个应用研究,即分析症状术语在语料库中的TF-IDF分布特征,建立了包含10292条症状一解剖部位关系对的知识库,分析了语料库的子语言模式、语义和词性分布特征。为深入理解临床文本的语法、语义和语用提供了定量的指标。本论文设计了快速高效的临床医学术语资源构建的方法,为在中文领域中开展大规模医学术语知识库建设提供了有力的计算工具,同时该方法体系也可以直接服务于很多医学语言处理技术过程,实现临床信息的高效利用。